Математические методы анализа текстов (МФТИ) / 2021

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Правила сдачи курса)
(Программа курса)
(6 промежуточных версий не показаны.)
Строка 19: Строка 19:
* По всем конструктивным вопросам пишите в telegram-чат
* По всем конструктивным вопросам пишите в telegram-чат
-
* Репозиторий со всеми материалами: [https://github.com/mmta-team/mmta_fall_mipt_2021 ссылка]
+
* Репозиторий со всеми материалами: [https://github.com/mmta-team/mmta_2021_fall ссылка]
* Видеозаписи лекций 2020 года: [https://www.youtube.com/playlist?list=PLVF5PzSHILHRQO45w7fEqmy7t9xWUGfB- ссылка]
* Видеозаписи лекций 2020 года: [https://www.youtube.com/playlist?list=PLVF5PzSHILHRQO45w7fEqmy7t9xWUGfB- ссылка]
-
* Короткая ссылка на страницу курса: TBA
+
* Короткая ссылка на страницу курса: [https://clck.ru/XJbNw ссылка]
 +
 
 +
* Родственный курс на ВМК МГУ: [[Математические методы анализа текстов (ВМК МГУ) / 2021 |ссылка]]
==Правила сдачи курса==
==Правила сдачи курса==
Строка 33: Строка 35:
Для остальных итоговая оценка по 10-ти балльной шкале вычисляется по следующей формуле:
Для остальных итоговая оценка по 10-ти балльной шкале вычисляется по следующей формуле:
-
TBA
+
<tex>round(0.7 \times D / 5 + 0.3 \times E) \times \mathbb{I}[E >= 3] </tex>, где
 +
 
 +
<tex>D</tex> — оценка за дз, <tex>E</tex> — оценка за экзамен, <tex>round</tex> — математическое округление.
 +
 
 +
Есть дополнительные условия для получения каждой из оценок:
 +
* удовлетворительно (3, 4) — 2 сданных задания на положительную оценку
 +
* хорошо (5, 6, 7) — 3 сданных задания на положительную оценку
 +
* отлично (8, 9, 10) — 4 сданных задания на положительную оценку
Если после сдачи экзамена студенту не хватает баллов на положительную оценку, он отправляется на "пересдачу". Студент должен досдать домашние задания, которые он не сдавал в течение семестра, чтобы набрать баллы для получения минимальной удовлетворительной оценки. Домашние задания проверяются без учёта штрафа.
Если после сдачи экзамена студенту не хватает баллов на положительную оценку, он отправляется на "пересдачу". Студент должен досдать домашние задания, которые он не сдавал в течение семестра, чтобы набрать баллы для получения минимальной удовлетворительной оценки. Домашние задания проверяются без учёта штрафа.
Строка 43: Строка 52:
|- <!-- Новое занятие -->
|- <!-- Новое занятие -->
| 1
| 1
-
| 02.09
+
| 09.09
| Организация курса, правила игры.
| Организация курса, правила игры.
Строка 55: Строка 64:
|- <!-- Новое занятие -->
|- <!-- Новое занятие -->
| 2
| 2
-
| 09.09
+
| 16.09
| Векторные представления слов
| Векторные представления слов
|
|
Строка 62: Строка 71:
|- <!-- Новое занятие -->
|- <!-- Новое занятие -->
| 3
| 3
-
| 15.09
+
| 23.09
-
| Задача разметки последовательностей (tagging). Примеры задач.
+
| Библиотека pytorch.
-
Модель Linear-CRF, её упрощения и обобщения.
+
Pytorch при работе с представлениями слов.
|
|
|
|
Строка 71: Строка 80:
|- <!-- Новое занятие -->
|- <!-- Новое занятие -->
| 4
| 4
-
| 23.09
+
| 30.09
 +
| Задача разметки последовательностей (tagging). Примеры задач.
 +
 
 +
Модель Linear-CRF, её упрощения и обобщения.
 +
| [[Media:mmta21-tagging-crf.pdf|презентация]]
 +
 
 +
[https://youtu.be/IX3XFMMW7l0?t=645 видео]
 +
|
 +
<!-- Конец занятия -->
 +
|- <!-- Новое занятие -->
 +
| 5
 +
| 07.10
|
|
Модели рекуррентных нейронных сетей: RNN, LSTM.
Модели рекуррентных нейронных сетей: RNN, LSTM.
Строка 80: Строка 100:
<!-- Конец занятия -->
<!-- Конец занятия -->
|- <!-- Новое занятие -->
|- <!-- Новое занятие -->
-
| 5
+
| 6
-
| 30.09
+
| 14.10
 +
|
 +
Pytorch для работы с последовательностями.
 +
|
 +
|
 +
<!-- Конец занятия -->
 +
|- <!-- Новое занятие -->
 +
| 7
 +
| 21.10
| Машинный перевод. Подход Sequence-to-sequence.
| Машинный перевод. Подход Sequence-to-sequence.
Строка 91: Строка 119:
<!-- Конец занятия -->
<!-- Конец занятия -->
|- <!-- Новое занятие -->
|- <!-- Новое занятие -->
-
| 6
+
| 8
-
| 13.10
+
| 28.10
| Задача языкового моделирования.
| Задача языкового моделирования.
Строка 103: Строка 131:
<!-- Конец занятия -->
<!-- Конец занятия -->
|- <!-- Новое занятие -->
|- <!-- Новое занятие -->
-
| 7
+
| 9
-
| 20.10
+
| 11.11
| Контекстуальные векторные представления слов.
| Контекстуальные векторные представления слов.
Строка 114: Строка 142:
<!-- Конец занятия -->
<!-- Конец занятия -->
|- <!-- Новое занятие -->
|- <!-- Новое занятие -->
-
| 8
+
| 10
-
| 28.10
+
| 18.11
| Задача классификации текстов.
| Задача классификации текстов.
Строка 123: Строка 151:
<!-- Конец занятия -->
<!-- Конец занятия -->
|- <!-- Новое занятие -->
|- <!-- Новое занятие -->
-
| 9
+
| 11
-
| 03.11
+
| 25.11
-
| Тематическое моделирование и его приложения.
+
| Тематическое моделирование и его приложения.
|
|
Строка 131: Строка 159:
<!-- Конец занятия -->
<!-- Конец занятия -->
|- <!-- Новое занятие -->
|- <!-- Новое занятие -->
-
| 10
+
| 12
-
| 11.11
+
| 02.12
|
|
-
Диалоговые и вопросно-ответные системы.
+
Различные приложения DL в NLP.
|
|
Строка 140: Строка 168:
<!-- Конец занятия -->
<!-- Конец занятия -->
|- <!-- Новое занятие -->
|- <!-- Новое занятие -->
-
| 11
+
| 13
-
| 17.11
+
| 09.12
-
| Синтаксический разбор и его применение в практических задачах.
+
| TBA
|
|
Строка 148: Строка 176:
<!-- Конец занятия -->
<!-- Конец занятия -->
|- <!-- Новое занятие -->
|- <!-- Новое занятие -->
-
| 12
+
| 14
-
| 24.11
+
| 16.12
-
| Информационный поиск.
+
| TBA
-
 
+
-
NLP в рекомендательных системах.
+
|
|
|
|
-
<!-- Конец занятия -->
 
-
|- <!-- Новое занятие -->
 
-
| 13
 
-
| 01.12
 
-
| Автоматическая суммаризация текстов.
 
-
 
-
|
 
-
|
 
<!-- Конец занятия -->
<!-- Конец занятия -->
|}
|}
 +
 +
==Страницы прошлых лет==
 +
 +
* [[Математические методы анализа текстов (курс лекций) / осень 2020]] ВМК & МФТИ
 +
* [[Математические методы анализа текстов (курс лекций) / осень 2019]] ВМК & МФТИ
 +
* [[Математические методы анализа текстов (курс лекций, К.В.Воронцов, А.А.Потапенко)]] — 2018 (ФУПМ МФТИ)
 +
* [[Математические методы анализа текстов (ВМиК МГУ) / 2018]] — 2018 (ВМК МГУ)
 +
* [[Математические методы анализа текстов (ВМиК МГУ) / 2017]] — 2017 (ВМК МГУ)
 +
 +
==Дополнительные материалы==
 +
 +
'''Литература'''
 +
 +
* ''Dan Jurafsky and James H. Martin'' [https://web.stanford.edu/~jurafsky/slp3/ Speech and Language Processing] (3rd ed. draft)
 +
* ''Stewen Bird'' et. al. [http://www.nltk.org/book/ Natural Language Processing with Python]. 2-nd edition. 2016.
 +
* ''Большакова Е.И., Воронцов К.В., Ефремова Н.Э., Клышинский Э.С., Лукашевич Н.В., Сапин А.С.'' [[media:bolshakova17hse-summer-school.pdf|Автоматическая обработка текстов на естественном языке и анализ данных]]. НИУ ВШЭ, 2017.
 +
* ''Yoav Goldberg '' et. al. Neural Network Methods in Natural Language Processing
 +
* LxMLS summer school [http://lxmls.it.pt/2018/LxMLS_guide_2018.pdf Practical guide on NLP in Python]
 +
 +
'''Другие курсы по NLP'''
 +
 +
* [https://web.stanford.edu/class/cs224n/ CS224N: Natural Language Processing with Deep Learning]
 +
* [https://github.com/yandexdataschool/nlp_course YSDA Natural Language Processing course]
 +
* [http://web.stanford.edu/class/cs224u/ CS224U: Natural Language Understanding]
 +
* [https://www.coursera.org/learn/language-processing Natural Language Processing (coursera, HSE)]
 +
 +
[[Категория:Учебные курсы]]

Версия 18:44, 29 сентября 2021

В курсе рассматриваются основные задачи и математические методы обработки естественного языка.

Курс читается:

От студентов требуются знание курса машинного обучения, основ глубинного обучения, а также языка программирования Python.

Содержание

Объявления

Нет

Контакты

  • В этом семестре занятия будут проводиться онлайн в zoom
  • По всем конструктивным вопросам пишите в telegram-чат
  • Репозиторий со всеми материалами: ссылка
  • Видеозаписи лекций 2020 года: ссылка
  • Короткая ссылка на страницу курса: ссылка
  • Родственный курс на ВМК МГУ: ссылка

Правила сдачи курса

Правила выставления итоговой оценки

В рамках курса предполагается четыре практических задания и экзамен. Практические задания сдаются в систему anytask (инвайт у преподавателя). Срок выполнения каждого задания — 2 недели. За каждое задание можно получить до 10-ти баллов. За каждый день просрочки назначается штраф 1 балл. Основной язык выполнения заданий — Python 3.

Студенты, набравшие за практические задания больше 40 баллов, получают автоматом максимальную оценку. Для остальных итоговая оценка по 10-ти балльной шкале вычисляется по следующей формуле:

round(0.7 \times D / 5 + 0.3 \times E) \times \mathbb{I}[E >= 3] , где

D — оценка за дз, E — оценка за экзамен, round — математическое округление.

Есть дополнительные условия для получения каждой из оценок:

  • удовлетворительно (3, 4) — 2 сданных задания на положительную оценку
  • хорошо (5, 6, 7) — 3 сданных задания на положительную оценку
  • отлично (8, 9, 10) — 4 сданных задания на положительную оценку

Если после сдачи экзамена студенту не хватает баллов на положительную оценку, он отправляется на "пересдачу". Студент должен досдать домашние задания, которые он не сдавал в течение семестра, чтобы набрать баллы для получения минимальной удовлетворительной оценки. Домашние задания проверяются без учёта штрафа.

Программа курса

Дата Тема Материалы Д/З
1 09.09 Организация курса, правила игры.

Введение в обработку текстов (Natural Language Processing).

Предобработка, выделение признаков и классификация .

2 16.09 Векторные представления слов
3 23.09 Библиотека pytorch.

Pytorch при работе с представлениями слов.

4 30.09 Задача разметки последовательностей (tagging). Примеры задач.

Модель Linear-CRF, её упрощения и обобщения.

презентация

видео

5 07.10

Модели рекуррентных нейронных сетей: RNN, LSTM.

Применение LSTM для разметки последовательности.

6 14.10

Pytorch для работы с последовательностями.

7 21.10 Машинный перевод. Подход Sequence-to-sequence.

Механизм внимания в подходе sequence-to-sequence.

Архитектура transformer.

8 28.10 Задача языкового моделирования.

Статистические и нейросетевые языковые модели.

Задача генерации естественного языка.

9 11.11 Контекстуальные векторные представления слов.

Transfer learning в NLP.

Модель BERT и её модификации.

10 18.11 Задача классификации текстов.

Дизайн индустриальной ML-системы.

11 25.11 Тематическое моделирование и его приложения.
12 02.12

Различные приложения DL в NLP.

13 09.12 TBA
14 16.12 TBA

Страницы прошлых лет

Дополнительные материалы

Литература

Другие курсы по NLP

Личные инструменты