Математические методы анализа текстов (курс лекций) / осень 2020

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Программа курса)
(Программа курса)
Строка 78: Строка 78:
| 09.09
| 09.09
| Векторные представления слов
| Векторные представления слов
-
| [https://github.com/mmta-team/mmta_fall_2020/blob/master/02_word_embeddings/word_embeddings/word_embeddings.pdf презентация]
+
| [https://github.com/mmta-team/mmta_fall_2020/blob/master/02_word_embeddings/word_embeddings.pdf презентация]
| [https://www.youtube.com/watch?v=9ny2v6-KT84&list=PLVF5PzSHILHRQO45w7fEqmy7t9xWUGfB-&index=4&t=0s видео]
| [https://www.youtube.com/watch?v=9ny2v6-KT84&list=PLVF5PzSHILHRQO45w7fEqmy7t9xWUGfB-&index=4&t=0s видео]
| [https://github.com/mmta-team/mmta_fall_2020/tree/master/tasks/01_word_embeddings задание по эмбеддингам]
| [https://github.com/mmta-team/mmta_fall_2020/tree/master/tasks/01_word_embeddings задание по эмбеддингам]
Строка 107: Строка 107:
|- <!-- Новое занятие -->
|- <!-- Новое занятие -->
| лекция 4
| лекция 4
-
| ???
+
| 23.09
-
| Задача языкового моделирования. Статистические подходы её решения.
+
|
 +
Модели RNN, LSTM.
-
Архитектуры RNN, LSTM.
+
Применение LSTM, LSTM-CRF для разметки.
-
 
+
| [https://github.com/mmta-team/mmta_fall_2020/blob/master/04_tagging_rnn/tagging_rnn.pdf слайды]
-
Применение RNN для языкового моделирования и теггинга.
+
-
|
+
|
|
|
|
Строка 132: Строка 131:
| лекция 6
| лекция 6
| ???
| ???
-
| Задача генерации естественного языка.
+
| Задача языкового моделирования. Статистические подходы её решения.
 +
 
 +
Задача генерации естественного языка.
Нейросетевые языковые модели. Модель GPT и её модификации.
Нейросетевые языковые модели. Модель GPT и её модификации.

Версия 09:40, 26 сентября 2020

В курсе рассматриваются основные задачи и математические методы обработки естественного языка.

Курс читается:

От студентов требуются знание курса машинного обучения, основ глубинного обучения, а также языка программирования Python.

Содержание

Объявления

Нет

Контакты

  • В этом семестре занятия будут проводиться онлайн в TBA
  • По всем конструктивным вопросам пишите в telegram-чат
  • Репозиторий со всеми материалами: ссылка
  • Постоянная ссылка для просмотра лекций в Zoom: ссылка

Правила сдачи курса

  • В курсе будет 5 практических задания по 10 баллов без учёта бонусов.
  • В конце курса — устный экзамен, оцениваемый по 10-ти балльной шкале.
  • По всем заданиям мягкий дедлайн, за 1 день штрафа назначается штраф 1 балл.
  • За любой найденный плагиат задание обнуляется у всех студентов с найденным плагиатом. При повторном обнаружении плагиата могут следовать более жёсткие санкции. Плагиатом считается явное заимствование кода у другого студента или из открытых источников без указания источника.

Правила выставления итоговой оценки

Студенты, набравшие за практические задания больше 50 баллов, получают автоматом максимальную оценку. Для остальных итоговая оценка по 10-ти балльной шкале вычисляется по следующей формуле:

round(0.7 \times D / 5 + 0.3 \times E) \times \mathbb{I}[E >= 3] , где

D — оценка за дз, E — оценка за экзамен, round — математическое округление.

Есть дополнительные условия для получения каждой из оценок:

  • удовлетворительно (3, 4) — 2 сданных задания на положительную оценку
  • хорошо (5, 6, 7) — 3 сданных задания на положительную оценку
  • отлично (8, 9, 10) — 4 сданных задания на положительную оценку

Правила сдачи экзамена

TBA

Программа курса

Дата Тема Материалы Видео Д/З
лекция 1 02.09 Организация курса, правила игры.

Введение в обработку текстов (Natural Language Processing).

Предобработка, выделение признаков и классификация .

презентация (организация)

презентация (введение)

видео (организация)

видео (введение)

лекция 2 09.09 Векторные представления слов презентация видео задание по эмбеддингам
лекция 3 15.09 Задача разметки последовательностей (tagging). Примеры задач.

Модель Linear-CRF, её упрощения и обобщения.

презентация видео
семинар 16.09 Введение в нейросети. Библиотека pytorch. записи (нейросети)

ноутбук (pytorch)

ноутбук (cbow на pytorch)

видео
лекция 4 23.09

Модели RNN, LSTM.

Применение LSTM, LSTM-CRF для разметки.

слайды
лекция 5  ??? Машинный перевод. Подход Sequence-to-sequence.

Механизм внимания в подходе sequence-to-sequence.

Архитектура transformer.

лекция 6  ??? Задача языкового моделирования. Статистические подходы её решения.

Задача генерации естественного языка.

Нейросетевые языковые модели. Модель GPT и её модификации.

лекция 7  ??? Контекстуальные векторные представления слов.

Transfer learning в NLP.

Модель BERT и её модификации.

лекция 8  ??? Задача классификации текстов.

Дизайн индустриальной ML-системы.

лекция 9  ??? Тематическое моделирование и тематический поиск.
лекция 10  ??? Синтаксический разбор и его применение в практических задачах.
лекция 11  ??? Информационный поиск.

NLP в рекомендательных системах.

лекция 12  ??? Диалоговые и вопросно-ответные системы.
лекция 13  ??? TBA
лекция 14  ??? TBA


Страницы прошлых лет

2019

2018 (ФУПМ МФТИ), 2018 (ВМК МГУ)

2017 (ВМК МГУ)

Дополнительные материалы

Литература

Другие курсы по NLP

Личные инструменты