Математические методы анализа текстов (МФТИ) / 2021

Материал из MachineLearning.

(Различия между версиями)

Версия 18:44, 29 сентября 2021

В курсе рассматриваются основные задачи и математические методы обработки естественного языка.

Курс читается:

студентам кафедры «Математические методы прогнозирования» ВМК МГУ с 2016 года
студентам кафедры «Интеллектуальные системы» ФУПМ МФТИ с 2018 года

От студентов требуются знание курса машинного обучения, основ глубинного обучения, а также языка программирования Python.

Содержание

1 Объявления
2 Контакты
3 Правила сдачи курса
- 3.1 Правила выставления итоговой оценки
4 Программа курса
5 Страницы прошлых лет
6 Дополнительные материалы

Объявления

Нет

Контакты

Преподаватели курса: Попов А.С., Апишев М.А., Хрыльченко К.Я., Воронцов К.В.

В этом семестре занятия будут проводиться онлайн в zoom

По всем конструктивным вопросам пишите в telegram-чат

Репозиторий со всеми материалами: ссылка

Видеозаписи лекций 2020 года: ссылка

Короткая ссылка на страницу курса: ссылка

Родственный курс на ВМК МГУ: ссылка

Правила сдачи курса

Правила выставления итоговой оценки

В рамках курса предполагается четыре практических задания и экзамен. Практические задания сдаются в систему anytask (инвайт у преподавателя). Срок выполнения каждого задания — 2 недели. За каждое задание можно получить до 10-ти баллов. За каждый день просрочки назначается штраф 1 балл. Основной язык выполнения заданий — Python 3.

Студенты, набравшие за практические задания больше 40 баллов, получают автоматом максимальную оценку. Для остальных итоговая оценка по 10-ти балльной шкале вычисляется по следующей формуле:

$round(0.7 \times D / 5 + 0.3 \times E) \times \mathbb{I}[E >= 3]$ , где

$D$ — оценка за дз, $E$ — оценка за экзамен, $round$ — математическое округление.

Есть дополнительные условия для получения каждой из оценок:

удовлетворительно (3, 4) — 2 сданных задания на положительную оценку
хорошо (5, 6, 7) — 3 сданных задания на положительную оценку
отлично (8, 9, 10) — 4 сданных задания на положительную оценку

Если после сдачи экзамена студенту не хватает баллов на положительную оценку, он отправляется на "пересдачу". Студент должен досдать домашние задания, которые он не сдавал в течение семестра, чтобы набрать баллы для получения минимальной удовлетворительной оценки. Домашние задания проверяются без учёта штрафа.

Программа курса

№	Дата	Тема	Материалы
1	09.09	Организация курса, правила игры. Введение в обработку текстов (Natural Language Processing). Предобработка, выделение признаков и классификация .
2	16.09	Векторные представления слов
3	23.09	Библиотека pytorch. Pytorch при работе с представлениями слов.
4	30.09	Задача разметки последовательностей (tagging). Примеры задач. Модель Linear-CRF, её упрощения и обобщения.	презентация видео
5	07.10	Модели рекуррентных нейронных сетей: RNN, LSTM. Применение LSTM для разметки последовательности.
6	14.10	Pytorch для работы с последовательностями.
7	21.10	Машинный перевод. Подход Sequence-to-sequence. Механизм внимания в подходе sequence-to-sequence. Архитектура transformer.
8	28.10	Задача языкового моделирования. Статистические и нейросетевые языковые модели. Задача генерации естественного языка.
9	11.11	Контекстуальные векторные представления слов. Transfer learning в NLP. Модель BERT и её модификации.
10	18.11	Задача классификации текстов. Дизайн индустриальной ML-системы.
11	25.11	Тематическое моделирование и его приложения.
12	02.12	Различные приложения DL в NLP.
13	09.12	TBA
14	16.12	TBA

Страницы прошлых лет

Математические методы анализа текстов (курс лекций) / осень 2020 ВМК & МФТИ
Математические методы анализа текстов (курс лекций) / осень 2019 ВМК & МФТИ
Математические методы анализа текстов (курс лекций, К.В.Воронцов, А.А.Потапенко) — 2018 (ФУПМ МФТИ)
Математические методы анализа текстов (ВМиК МГУ) / 2018 — 2018 (ВМК МГУ)
Математические методы анализа текстов (ВМиК МГУ) / 2017 — 2017 (ВМК МГУ)

Дополнительные материалы

Литература

Dan Jurafsky and James H. Martin Speech and Language Processing (3rd ed. draft)
Stewen Bird et. al. Natural Language Processing with Python. 2-nd edition. 2016.
Большакова Е.И., Воронцов К.В., Ефремова Н.Э., Клышинский Э.С., Лукашевич Н.В., Сапин А.С. Автоматическая обработка текстов на естественном языке и анализ данных. НИУ ВШЭ, 2017.
Yoav Goldberg et. al. Neural Network Methods in Natural Language Processing
LxMLS summer school Practical guide on NLP in Python

Другие курсы по NLP

Источник — «http://machinelearning.ru/wiki/index.php?title=%D0%9C%D0%B0%D1%82%D0%B5%D0%BC%D0%B0%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B8%D0%B5_%D0%BC%D0%B5%D1%82%D0%BE%D0%B4%D1%8B_%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7%D0%B0_%D1%82%D0%B5%D0%BA%D1%81%D1%82%D0%BE%D0%B2_%28%D0%9C%D0%A4%D0%A2%D0%98%29_/_2021»

Категория: Учебные курсы

@@ Строка 19: / Строка 19: @@
 * По всем конструктивным вопросам пишите в telegram-чат
-* Репозиторий со всеми материалами: [https://github.com/mmta-team/mmta_fall_mipt_2021 ссылка]
+* Репозиторий со всеми материалами: [https://github.com/mmta-team/mmta_2021_fall ссылка]
 * Видеозаписи лекций 2020 года: [https://www.youtube.com/playlist?list=PLVF5PzSHILHRQO45w7fEqmy7t9xWUGfB- ссылка]
-* Короткая ссылка на страницу курса: TBA
+* Короткая ссылка на страницу курса: [https://clck.ru/XJbNw ссылка]
+* Родственный курс на ВМК МГУ: [[Математические методы анализа текстов (ВМК МГУ) / 2021 |ссылка]]
+==Правила сдачи курса==
+===Правила выставления итоговой оценки===
+В рамках курса предполагается четыре практических задания и экзамен. Практические задания сдаются в систему anytask (инвайт у преподавателя). Срок выполнения каждого задания — 2 недели. За каждое задание можно получить до 10-ти баллов. За каждый день просрочки назначается штраф 1 балл. Основной язык выполнения заданий — Python 3.
+Студенты, набравшие за практические задания больше 40 баллов, получают автоматом максимальную оценку.
+Для остальных итоговая оценка по 10-ти балльной шкале вычисляется по следующей формуле:
+<tex>round(0.7 \times D / 5 + 0.3 \times E) \times \mathbb{I}[E >= 3] </tex>, где
+<tex>D</tex> — оценка за дз, <tex>E</tex> — оценка за экзамен, <tex>round</tex> — математическое округление.
+Есть дополнительные условия для получения каждой из оценок:
+* удовлетворительно (3, 4) — 2 сданных задания на положительную оценку
+* хорошо (5, 6, 7) — 3 сданных задания на положительную оценку
+* отлично (8, 9, 10) — 4 сданных задания на положительную оценку
+Если после сдачи экзамена студенту не хватает баллов на положительную оценку, он отправляется на "пересдачу". Студент должен досдать домашние задания, которые он не сдавал в течение семестра, чтобы набрать баллы для получения минимальной удовлетворительной оценки. Домашние задания проверяются без учёта штрафа.
+==Программа курса==
+{|class = "standard"
+! № !! Дата !! Тема !! Материалы !! Д/З
+|- <!-- Новое занятие -->
+| 1
+| 09.09
+| Организация курса, правила игры.
+Введение в обработку текстов (Natural Language Processing).
+Предобработка, выделение признаков и классификация .
+|
+|
+<!-- Конец занятия -->
+|- <!-- Новое занятие -->
+| 2
+| 16.09
+| Векторные представления слов
+|
+|
+<!-- Конец занятия -->
+|- <!-- Новое занятие -->
+| 3
+| 23.09
+| Библиотека pytorch.
+Pytorch при работе с представлениями слов.
+|
+|
+<!-- Конец занятия -->
+|- <!-- Новое занятие -->
+| 4
+| 30.09
+| Задача разметки последовательностей (tagging). Примеры задач.
+Модель Linear-CRF, её упрощения и обобщения.
+| [[Media:mmta21-tagging-crf.pdf|презентация]]
+[https://youtu.be/IX3XFMMW7l0?t=645 видео]
+|
+<!-- Конец занятия -->
+|- <!-- Новое занятие -->
+| 5
+| 07.10
+|
+Модели рекуррентных нейронных сетей: RNN, LSTM.
+Применение LSTM для разметки последовательности.
+|
+|
+<!-- Конец занятия -->
+|- <!-- Новое занятие -->
+| 6
+| 14.10
+|
+Pytorch для работы с последовательностями.
+|
+|
+<!-- Конец занятия -->
+|- <!-- Новое занятие -->
+| 7
+| 21.10
+| Машинный перевод. Подход Sequence-to-sequence.
+Механизм внимания в подходе sequence-to-sequence.
+Архитектура transformer.
+|
+|
+<!-- Конец занятия -->
+|- <!-- Новое занятие -->
+| 8
+| 28.10
+| Задача языкового моделирования.
+Статистические и нейросетевые языковые модели.
+Задача генерации естественного языка.
+|
+|
+<!-- Конец занятия -->
+|- <!-- Новое занятие -->
+| 9
+| 11.11
+| Контекстуальные векторные представления слов.
+Transfer learning в NLP.
+Модель BERT и её модификации.
+|
+|
+<!-- Конец занятия -->
+|- <!-- Новое занятие -->
+| 10
+| 18.11
+| Задача классификации текстов.
+Дизайн индустриальной ML-системы.
+|
+|
+<!-- Конец занятия -->
+|- <!-- Новое занятие -->
+| 11
+| 25.11
+| Тематическое моделирование и его приложения.
+|
+|
+<!-- Конец занятия -->
+|- <!-- Новое занятие -->
+| 12
+| 02.12
+|
+Различные приложения DL в NLP.
+|
+|
+<!-- Конец занятия -->
+|- <!-- Новое занятие -->
+| 13
+| 09.12
+| TBA
+|
+|
+<!-- Конец занятия -->
+|- <!-- Новое занятие -->
+| 14
+| 16.12
+| TBA
+|
+|
+<!-- Конец занятия -->
+|}
+==Страницы прошлых лет==
+* [[Математические методы анализа текстов (курс лекций) / осень 2020]] ВМК & МФТИ
+* [[Математические методы анализа текстов (курс лекций) / осень 2019]] ВМК & МФТИ
+* [[Математические методы анализа текстов (курс лекций, К.В.Воронцов, А.А.Потапенко)]] — 2018 (ФУПМ МФТИ)
+* [[Математические методы анализа текстов (ВМиК МГУ) / 2018]] — 2018 (ВМК МГУ)
+* [[Математические методы анализа текстов (ВМиК МГУ) / 2017]] — 2017 (ВМК МГУ)
+==Дополнительные материалы==
+'''Литература'''
+* ''Dan Jurafsky and James H. Martin'' [https://web.stanford.edu/~jurafsky/slp3/ Speech and Language Processing] (3rd ed. draft)
+* ''Stewen Bird'' et. al. [http://www.nltk.org/book/ Natural Language Processing with Python].  2-nd edition. 2016.
+* ''Большакова Е.И., Воронцов К.В., Ефремова Н.Э., Клышинский Э.С., Лукашевич Н.В., Сапин А.С.'' [[media:bolshakova17hse-summer-school.pdf|Автоматическая обработка текстов на естественном языке и анализ данных]]. НИУ ВШЭ, 2017.
+* ''Yoav Goldberg '' et. al. Neural Network Methods in Natural Language Processing
+* LxMLS summer school [http://lxmls.it.pt/2018/LxMLS_guide_2018.pdf Practical guide on NLP in Python]
+'''Другие курсы по NLP'''
+* [https://web.stanford.edu/class/cs224n/ CS224N: Natural Language Processing with Deep Learning]
+* [https://github.com/yandexdataschool/nlp_course YSDA Natural Language Processing course]
+* [http://web.stanford.edu/class/cs224u/ CS224U: Natural Language Understanding]
+* [https://www.coursera.org/learn/language-processing Natural Language Processing (coursera, HSE)]
+[[Категория:Учебные курсы]]

Математические методы анализа текстов (МФТИ) / 2021

Материал из MachineLearning.

Версия 18:44, 29 сентября 2021

Содержание

Объявления

Контакты

Правила сдачи курса

Правила выставления итоговой оценки

Программа курса

Страницы прошлых лет

Дополнительные материалы

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты