Математические методы анализа текстов (МФТИ) / 2021
Материал из MachineLearning.
(→Программа курса) |
(→Программа курса) |
||
Строка 52: | Строка 52: | ||
|- <!-- Новое занятие --> | |- <!-- Новое занятие --> | ||
| 1 | | 1 | ||
- | | | + | | 08.09 |
| Организация курса, правила игры. | | Организация курса, правила игры. | ||
Строка 64: | Строка 64: | ||
|- <!-- Новое занятие --> | |- <!-- Новое занятие --> | ||
| 2 | | 2 | ||
- | | | + | | 15.09 |
| Векторные представления слов | | Векторные представления слов | ||
| | | | ||
Строка 71: | Строка 71: | ||
|- <!-- Новое занятие --> | |- <!-- Новое занятие --> | ||
| 3 | | 3 | ||
- | | | + | | 22.09 |
| Библиотека pytorch. | | Библиотека pytorch. | ||
Строка 80: | Строка 80: | ||
|- <!-- Новое занятие --> | |- <!-- Новое занятие --> | ||
| 4 | | 4 | ||
- | | | + | | 29.09 |
| Задача разметки последовательностей (tagging). Примеры задач. | | Задача разметки последовательностей (tagging). Примеры задач. | ||
Строка 91: | Строка 91: | ||
|- <!-- Новое занятие --> | |- <!-- Новое занятие --> | ||
| 5 | | 5 | ||
- | | | + | | 06.10 |
| | | | ||
Модели рекуррентных нейронных сетей: RNN, LSTM. | Модели рекуррентных нейронных сетей: RNN, LSTM. | ||
Строка 101: | Строка 101: | ||
|- <!-- Новое занятие --> | |- <!-- Новое занятие --> | ||
| 6 | | 6 | ||
- | | | + | | 13.10 |
| | | | ||
Pytorch для работы с последовательностями. | Pytorch для работы с последовательностями. | ||
Строка 109: | Строка 109: | ||
|- <!-- Новое занятие --> | |- <!-- Новое занятие --> | ||
| 7 | | 7 | ||
- | | | + | | 20.10 |
| Машинный перевод. Подход Sequence-to-sequence. | | Машинный перевод. Подход Sequence-to-sequence. | ||
Строка 120: | Строка 120: | ||
|- <!-- Новое занятие --> | |- <!-- Новое занятие --> | ||
| 8 | | 8 | ||
- | | | + | | 27.10 |
| Задача языкового моделирования. | | Задача языкового моделирования. | ||
Строка 132: | Строка 132: | ||
|- <!-- Новое занятие --> | |- <!-- Новое занятие --> | ||
| 9 | | 9 | ||
- | | | + | | 10.11 |
| Контекстуальные векторные представления слов. | | Контекстуальные векторные представления слов. | ||
Строка 143: | Строка 143: | ||
|- <!-- Новое занятие --> | |- <!-- Новое занятие --> | ||
| 10 | | 10 | ||
- | | | + | | 17.11 |
| Задача классификации текстов. | | Задача классификации текстов. | ||
Строка 152: | Строка 152: | ||
|- <!-- Новое занятие --> | |- <!-- Новое занятие --> | ||
| 11 | | 11 | ||
- | | | + | | 24.11 |
- | | | + | | Различные приложения DL в NLP. |
+ | |||
| | | | ||
Строка 160: | Строка 161: | ||
|- <!-- Новое занятие --> | |- <!-- Новое занятие --> | ||
| 12 | | 12 | ||
- | | | + | | 01.12 |
- | | | + | | Тематическое моделирование и его приложения. |
- | + | ||
| | | | ||
Строка 169: | Строка 169: | ||
|- <!-- Новое занятие --> | |- <!-- Новое занятие --> | ||
| 13 | | 13 | ||
- | | | + | | 08.12 |
| TBA | | TBA | ||
Строка 177: | Строка 177: | ||
|- <!-- Новое занятие --> | |- <!-- Новое занятие --> | ||
| 14 | | 14 | ||
- | | | + | | 15.12 |
| TBA | | TBA | ||
| | | |
Версия 08:39, 18 ноября 2021
В курсе рассматриваются основные задачи и математические методы обработки естественного языка.
Курс читается:
- студентам кафедры «Математические методы прогнозирования» ВМК МГУ с 2016 года
- студентам кафедры «Интеллектуальные системы» ФУПМ МФТИ с 2018 года
От студентов требуются знание курса машинного обучения, основ глубинного обучения, а также языка программирования Python.
Содержание |
Объявления
Нет
Контакты
- Преподаватели курса: Попов А.С., Апишев М.А., Хрыльченко К.Я., Воронцов К.В.
- В этом семестре занятия будут проводиться онлайн в zoom
- По всем конструктивным вопросам пишите в telegram-чат
- Репозиторий со всеми материалами: ссылка
- Видеозаписи лекций 2020 года: ссылка
- Короткая ссылка на страницу курса: ссылка
- Родственный курс на ВМК МГУ: ссылка
Правила сдачи курса
Правила выставления итоговой оценки
В рамках курса предполагается четыре практических задания и экзамен. Практические задания сдаются в систему anytask (инвайт у преподавателя). Срок выполнения каждого задания — 2 недели. За каждое задание можно получить до 10-ти баллов. За каждый день просрочки назначается штраф 1 балл. Основной язык выполнения заданий — Python 3.
Студенты, набравшие за практические задания больше 40 баллов, получают автоматом максимальную оценку. Для остальных итоговая оценка по 10-ти балльной шкале вычисляется по следующей формуле:
, где
— оценка за дз, — оценка за экзамен, — математическое округление.
Есть дополнительные условия для получения каждой из оценок:
- удовлетворительно (3, 4) — 2 сданных задания на положительную оценку
- хорошо (5, 6, 7) — 3 сданных задания на положительную оценку
- отлично (8, 9, 10) — 4 сданных задания на положительную оценку
Если после сдачи экзамена студенту не хватает баллов на положительную оценку, он отправляется на "пересдачу". Студент должен досдать домашние задания, которые он не сдавал в течение семестра, чтобы набрать баллы для получения минимальной удовлетворительной оценки. Домашние задания проверяются без учёта штрафа.
Программа курса
№ | Дата | Тема | Материалы | Д/З |
---|---|---|---|---|
1 | 08.09 | Организация курса, правила игры.
Введение в обработку текстов (Natural Language Processing). Предобработка, выделение признаков и классификация . | ||
2 | 15.09 | Векторные представления слов | ||
3 | 22.09 | Библиотека pytorch.
Pytorch при работе с представлениями слов. | ||
4 | 29.09 | Задача разметки последовательностей (tagging). Примеры задач.
Модель Linear-CRF, её упрощения и обобщения. | презентация | |
5 | 06.10 |
Модели рекуррентных нейронных сетей: RNN, LSTM. Применение LSTM для разметки последовательности. | ||
6 | 13.10 |
Pytorch для работы с последовательностями. | ||
7 | 20.10 | Машинный перевод. Подход Sequence-to-sequence.
Механизм внимания в подходе sequence-to-sequence. Архитектура transformer. | ||
8 | 27.10 | Задача языкового моделирования.
Статистические и нейросетевые языковые модели. Задача генерации естественного языка. | ||
9 | 10.11 | Контекстуальные векторные представления слов.
Transfer learning в NLP. Модель BERT и её модификации. | ||
10 | 17.11 | Задача классификации текстов.
Дизайн индустриальной ML-системы. | ||
11 | 24.11 | Различные приложения DL в NLP.
| ||
12 | 01.12 | Тематическое моделирование и его приложения. | ||
13 | 08.12 | TBA | ||
14 | 15.12 | TBA |
Страницы прошлых лет
- Математические методы анализа текстов (курс лекций) / осень 2020 ВМК & МФТИ
- Математические методы анализа текстов (курс лекций) / осень 2019 ВМК & МФТИ
- Математические методы анализа текстов (курс лекций, К.В.Воронцов, А.А.Потапенко) — 2018 (ФУПМ МФТИ)
- Математические методы анализа текстов (ВМиК МГУ) / 2018 — 2018 (ВМК МГУ)
- Математические методы анализа текстов (ВМиК МГУ) / 2017 — 2017 (ВМК МГУ)
Дополнительные материалы
Литература
- Dan Jurafsky and James H. Martin Speech and Language Processing (3rd ed. draft)
- Stewen Bird et. al. Natural Language Processing with Python. 2-nd edition. 2016.
- Большакова Е.И., Воронцов К.В., Ефремова Н.Э., Клышинский Э.С., Лукашевич Н.В., Сапин А.С. Автоматическая обработка текстов на естественном языке и анализ данных. НИУ ВШЭ, 2017.
- Yoav Goldberg et. al. Neural Network Methods in Natural Language Processing
- LxMLS summer school Practical guide on NLP in Python
Другие курсы по NLP