Математические методы анализа текстов (МФТИ) / 2021

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Программа курса)
(8 промежуточных версий не показаны.)
Строка 19: Строка 19:
* По всем конструктивным вопросам пишите в telegram-чат
* По всем конструктивным вопросам пишите в telegram-чат
-
* Репозиторий со всеми материалами: [https://github.com/mmta-team/mmta_fall_mipt_2021 ссылка]
+
* Репозиторий со всеми материалами: [https://github.com/mmta-team/mmta_2021_fall ссылка]
* Видеозаписи лекций 2020 года: [https://www.youtube.com/playlist?list=PLVF5PzSHILHRQO45w7fEqmy7t9xWUGfB- ссылка]
* Видеозаписи лекций 2020 года: [https://www.youtube.com/playlist?list=PLVF5PzSHILHRQO45w7fEqmy7t9xWUGfB- ссылка]
-
* Короткая ссылка на страницу курса: TBA
+
* Короткая ссылка на страницу курса: [https://clck.ru/XJbNw ссылка]
 +
 
 +
* Родственный курс на ВМК МГУ: [[Математические методы анализа текстов (ВМК МГУ) / 2021 |ссылка]]
 +
 
 +
==Правила сдачи курса==
 +
===Правила выставления итоговой оценки===
 +
 
 +
В рамках курса предполагается четыре практических задания и экзамен. Практические задания сдаются в систему anytask (инвайт у преподавателя). Срок выполнения каждого задания — 2 недели. За каждое задание можно получить до 10-ти баллов. За каждый день просрочки назначается штраф 1 балл. Основной язык выполнения заданий — Python 3.
 +
 
 +
Студенты, набравшие за практические задания больше 40 баллов, получают автоматом максимальную оценку.
 +
Для остальных итоговая оценка по 10-ти балльной шкале вычисляется по следующей формуле:
 +
 
 +
<tex>round(0.7 \times D / 5 + 0.3 \times E) \times \mathbb{I}[E >= 3] </tex>, где
 +
 
 +
<tex>D</tex> — оценка за дз, <tex>E</tex> — оценка за экзамен, <tex>round</tex> — математическое округление.
 +
 
 +
Есть дополнительные условия для получения каждой из оценок:
 +
* удовлетворительно (3, 4) — 2 сданных задания на положительную оценку
 +
* хорошо (5, 6, 7) — 3 сданных задания на положительную оценку
 +
* отлично (8, 9, 10) — 4 сданных задания на положительную оценку
 +
 
 +
Если после сдачи экзамена студенту не хватает баллов на положительную оценку, он отправляется на "пересдачу". Студент должен досдать домашние задания, которые он не сдавал в течение семестра, чтобы набрать баллы для получения минимальной удовлетворительной оценки. Домашние задания проверяются без учёта штрафа.
 +
 
 +
==Программа курса==
 +
 
 +
{|class = "standard"
 +
! № !! Дата !! Тема !! Материалы !! Д/З
 +
|- <!-- Новое занятие -->
 +
| 1
 +
| 09.09
 +
| Организация курса, правила игры.
 +
 
 +
Введение в обработку текстов (Natural Language Processing).
 +
 
 +
Предобработка, выделение признаков и классификация .
 +
|
 +
|
 +
 
 +
<!-- Конец занятия -->
 +
|- <!-- Новое занятие -->
 +
| 2
 +
| 16.09
 +
| Векторные представления слов
 +
|
 +
|
 +
<!-- Конец занятия -->
 +
|- <!-- Новое занятие -->
 +
| 3
 +
| 23.09
 +
| Библиотека pytorch.
 +
 
 +
Pytorch при работе с представлениями слов.
 +
|
 +
|
 +
<!-- Конец занятия -->
 +
|- <!-- Новое занятие -->
 +
| 4
 +
| 30.09
 +
| Задача разметки последовательностей (tagging). Примеры задач.
 +
 
 +
Модель Linear-CRF, её упрощения и обобщения.
 +
| [[Media:mmta21-tagging-crf.pdf|презентация]]
 +
 
 +
[https://youtu.be/IX3XFMMW7l0?t=645 видео]
 +
|
 +
<!-- Конец занятия -->
 +
|- <!-- Новое занятие -->
 +
| 5
 +
| 07.10
 +
|
 +
Модели рекуррентных нейронных сетей: RNN, LSTM.
 +
 
 +
Применение LSTM для разметки последовательности.
 +
|
 +
|
 +
<!-- Конец занятия -->
 +
|- <!-- Новое занятие -->
 +
| 6
 +
| 14.10
 +
|
 +
Pytorch для работы с последовательностями.
 +
|
 +
|
 +
<!-- Конец занятия -->
 +
|- <!-- Новое занятие -->
 +
| 7
 +
| 21.10
 +
| Машинный перевод. Подход Sequence-to-sequence.
 +
 
 +
Механизм внимания в подходе sequence-to-sequence.
 +
 
 +
Архитектура transformer.
 +
|
 +
|
 +
<!-- Конец занятия -->
 +
|- <!-- Новое занятие -->
 +
| 8
 +
| 28.10
 +
| Задача языкового моделирования.
 +
 
 +
Статистические и нейросетевые языковые модели.
 +
 
 +
Задача генерации естественного языка.
 +
 
 +
|
 +
|
 +
<!-- Конец занятия -->
 +
|- <!-- Новое занятие -->
 +
| 9
 +
| 11.11
 +
| Контекстуальные векторные представления слов.
 +
 
 +
Transfer learning в NLP.
 +
 
 +
Модель BERT и её модификации.
 +
|
 +
|
 +
<!-- Конец занятия -->
 +
|- <!-- Новое занятие -->
 +
| 10
 +
| 18.11
 +
| Задача классификации текстов.
 +
 
 +
Дизайн индустриальной ML-системы.
 +
|
 +
|
 +
<!-- Конец занятия -->
 +
|- <!-- Новое занятие -->
 +
| 11
 +
| 25.11
 +
| Тематическое моделирование и его приложения.
 +
 
 +
|
 +
|
 +
<!-- Конец занятия -->
 +
|- <!-- Новое занятие -->
 +
| 12
 +
| 02.12
 +
|
 +
Различные приложения DL в NLP.
 +
 
 +
|
 +
|
 +
<!-- Конец занятия -->
 +
|- <!-- Новое занятие -->
 +
| 13
 +
| 09.12
 +
| TBA
 +
 
 +
|
 +
|
 +
<!-- Конец занятия -->
 +
|- <!-- Новое занятие -->
 +
| 14
 +
| 16.12
 +
| TBA
 +
|
 +
|
 +
<!-- Конец занятия -->
 +
|}
 +
 
 +
==Страницы прошлых лет==
 +
 
 +
* [[Математические методы анализа текстов (курс лекций) / осень 2020]] ВМК & МФТИ
 +
* [[Математические методы анализа текстов (курс лекций) / осень 2019]] ВМК & МФТИ
 +
* [[Математические методы анализа текстов (курс лекций, К.В.Воронцов, А.А.Потапенко)]] — 2018 (ФУПМ МФТИ)
 +
* [[Математические методы анализа текстов (ВМиК МГУ) / 2018]] — 2018 (ВМК МГУ)
 +
* [[Математические методы анализа текстов (ВМиК МГУ) / 2017]] — 2017 (ВМК МГУ)
 +
 
 +
==Дополнительные материалы==
 +
 
 +
'''Литература'''
 +
 
 +
* ''Dan Jurafsky and James H. Martin'' [https://web.stanford.edu/~jurafsky/slp3/ Speech and Language Processing] (3rd ed. draft)
 +
* ''Stewen Bird'' et. al. [http://www.nltk.org/book/ Natural Language Processing with Python]. 2-nd edition. 2016.
 +
* ''Большакова Е.И., Воронцов К.В., Ефремова Н.Э., Клышинский Э.С., Лукашевич Н.В., Сапин А.С.'' [[media:bolshakova17hse-summer-school.pdf|Автоматическая обработка текстов на естественном языке и анализ данных]]. НИУ ВШЭ, 2017.
 +
* ''Yoav Goldberg '' et. al. Neural Network Methods in Natural Language Processing
 +
* LxMLS summer school [http://lxmls.it.pt/2018/LxMLS_guide_2018.pdf Practical guide on NLP in Python]
 +
 
 +
'''Другие курсы по NLP'''
 +
 
 +
* [https://web.stanford.edu/class/cs224n/ CS224N: Natural Language Processing with Deep Learning]
 +
* [https://github.com/yandexdataschool/nlp_course YSDA Natural Language Processing course]
 +
* [http://web.stanford.edu/class/cs224u/ CS224U: Natural Language Understanding]
 +
* [https://www.coursera.org/learn/language-processing Natural Language Processing (coursera, HSE)]
 +
 
 +
[[Категория:Учебные курсы]]

Версия 18:44, 29 сентября 2021

В курсе рассматриваются основные задачи и математические методы обработки естественного языка.

Курс читается:

От студентов требуются знание курса машинного обучения, основ глубинного обучения, а также языка программирования Python.

Содержание

Объявления

Нет

Контакты

  • В этом семестре занятия будут проводиться онлайн в zoom
  • По всем конструктивным вопросам пишите в telegram-чат
  • Репозиторий со всеми материалами: ссылка
  • Видеозаписи лекций 2020 года: ссылка
  • Короткая ссылка на страницу курса: ссылка
  • Родственный курс на ВМК МГУ: ссылка

Правила сдачи курса

Правила выставления итоговой оценки

В рамках курса предполагается четыре практических задания и экзамен. Практические задания сдаются в систему anytask (инвайт у преподавателя). Срок выполнения каждого задания — 2 недели. За каждое задание можно получить до 10-ти баллов. За каждый день просрочки назначается штраф 1 балл. Основной язык выполнения заданий — Python 3.

Студенты, набравшие за практические задания больше 40 баллов, получают автоматом максимальную оценку. Для остальных итоговая оценка по 10-ти балльной шкале вычисляется по следующей формуле:

round(0.7 \times D / 5 + 0.3 \times E) \times \mathbb{I}[E >= 3] , где

D — оценка за дз, E — оценка за экзамен, round — математическое округление.

Есть дополнительные условия для получения каждой из оценок:

  • удовлетворительно (3, 4) — 2 сданных задания на положительную оценку
  • хорошо (5, 6, 7) — 3 сданных задания на положительную оценку
  • отлично (8, 9, 10) — 4 сданных задания на положительную оценку

Если после сдачи экзамена студенту не хватает баллов на положительную оценку, он отправляется на "пересдачу". Студент должен досдать домашние задания, которые он не сдавал в течение семестра, чтобы набрать баллы для получения минимальной удовлетворительной оценки. Домашние задания проверяются без учёта штрафа.

Программа курса

Дата Тема Материалы Д/З
1 09.09 Организация курса, правила игры.

Введение в обработку текстов (Natural Language Processing).

Предобработка, выделение признаков и классификация .

2 16.09 Векторные представления слов
3 23.09 Библиотека pytorch.

Pytorch при работе с представлениями слов.

4 30.09 Задача разметки последовательностей (tagging). Примеры задач.

Модель Linear-CRF, её упрощения и обобщения.

презентация

видео

5 07.10

Модели рекуррентных нейронных сетей: RNN, LSTM.

Применение LSTM для разметки последовательности.

6 14.10

Pytorch для работы с последовательностями.

7 21.10 Машинный перевод. Подход Sequence-to-sequence.

Механизм внимания в подходе sequence-to-sequence.

Архитектура transformer.

8 28.10 Задача языкового моделирования.

Статистические и нейросетевые языковые модели.

Задача генерации естественного языка.

9 11.11 Контекстуальные векторные представления слов.

Transfer learning в NLP.

Модель BERT и её модификации.

10 18.11 Задача классификации текстов.

Дизайн индустриальной ML-системы.

11 25.11 Тематическое моделирование и его приложения.
12 02.12

Различные приложения DL в NLP.

13 09.12 TBA
14 16.12 TBA

Страницы прошлых лет

Дополнительные материалы

Литература

Другие курсы по NLP

Личные инструменты