Математические методы анализа текстов (МФТИ) / 2021
Материал из MachineLearning.
В курсе рассматриваются основные задачи и математические методы обработки естественного языка.
Курс читается:
- студентам кафедры «Математические методы прогнозирования» ВМК МГУ с 2016 года
- студентам кафедры «Интеллектуальные системы» ФУПМ МФТИ с 2018 года
От студентов требуются знание курса машинного обучения, основ глубинного обучения, а также языка программирования Python.
Содержание |
Объявления
Нет
Контакты
- Преподаватели курса: Попов А.С., Апишев М.А., Хрыльченко К.Я., Воронцов К.В.
- В этом семестре занятия будут проводиться онлайн в zoom
- По всем конструктивным вопросам пишите в telegram-чат
- Репозиторий со всеми материалами: ссылка
- Видеозаписи лекций 2021 года: ссылка
- Короткая ссылка на страницу курса: ссылка
- Родственный курс на ВМК МГУ: ссылка
Правила сдачи курса
Правила выставления итоговой оценки
В рамках курса предполагается четыре практических задания и экзамен. Практические задания сдаются в систему anytask (инвайт у преподавателя). Срок выполнения каждого задания — 2 недели. За каждое задание можно получить до 10-ти баллов. За каждый день просрочки назначается штраф 1 балл. Основной язык выполнения заданий — Python 3.
Студенты, набравшие за практические задания больше 40 баллов, получают автоматом максимальную оценку. Для остальных итоговая оценка по 10-ти балльной шкале вычисляется по следующей формуле:
, где
— оценка за дз, — оценка за экзамен, — математическое округление.
Есть дополнительные условия для получения каждой из оценок:
- удовлетворительно (3, 4) — 2 сданных задания на положительную оценку
- хорошо (5, 6, 7) — 3 сданных задания на положительную оценку
- отлично (8, 9, 10) — 4 сданных задания на положительную оценку
Если после сдачи экзамена студенту не хватает баллов на положительную оценку, он отправляется на "пересдачу". Студент должен досдать домашние задания, которые он не сдавал в течение семестра, чтобы набрать баллы для получения минимальной удовлетворительной оценки. Домашние задания проверяются без учёта штрафа.
Правила сдачи экзамена
Экзамен проходит онлайн. Каждому студенту высылается два вопроса из списка для подготовки. Студент готовится к ответу, пользуясь любыми материалами. В назначенное время студент приглашается в индивидуальную зум-конференцию с преподавателем. Ориентировочное время ответа 40-60 минут.
Программа курса
№ | Дата | Тема | Материалы | Д/З |
---|---|---|---|---|
1 | 08.09 | Организация курса, правила игры.
Введение в обработку текстов (Natural Language Processing). Предобработка, выделение признаков и классификация . | ||
2 | 15.09 | Векторные представления слов | ||
3 | 22.09 | Библиотека pytorch.
Pytorch при работе с представлениями слов. | ||
4 | 29.09 | Задача разметки последовательностей (tagging). Примеры задач.
Модель Linear-CRF, её упрощения и обобщения. | презентация | |
5 | 06.10 |
Модели рекуррентных нейронных сетей: RNN, LSTM. Применение LSTM для разметки последовательности. | ||
6 | 13.10 |
Pytorch для работы с последовательностями. | ||
7 | 20.10 | Машинный перевод. Подход Sequence-to-sequence.
Механизм внимания в подходе sequence-to-sequence. Архитектура transformer. | ||
8 | 27.10 | Задача языкового моделирования.
Статистические и нейросетевые языковые модели. Задача генерации естественного языка. | ||
9 | 10.11 | Контекстуальные векторные представления слов.
Transfer learning в NLP. Модель BERT и её модификации. | ||
10 | 17.11 | Задача классификации текстов.
Дизайн индустриальной ML-системы. | ||
11 | 24.11 | Различные приложения DL в NLP.
| ||
12 | 01.12 | Тематическое моделирование и его приложения. | ||
13 | 08.12 | TBA | ||
14 | 15.12 | TBA |
Страницы прошлых лет
- Математические методы анализа текстов (курс лекций) / осень 2020 ВМК & МФТИ
- Математические методы анализа текстов (курс лекций) / осень 2019 ВМК & МФТИ
- Математические методы анализа текстов (курс лекций, К.В.Воронцов, А.А.Потапенко) — 2018 (ФУПМ МФТИ)
- Математические методы анализа текстов (ВМиК МГУ) / 2018 — 2018 (ВМК МГУ)
- Математические методы анализа текстов (ВМиК МГУ) / 2017 — 2017 (ВМК МГУ)
Дополнительные материалы
Литература
- Dan Jurafsky and James H. Martin Speech and Language Processing (3rd ed. draft)
- Stewen Bird et. al. Natural Language Processing with Python. 2-nd edition. 2016.
- Большакова Е.И., Воронцов К.В., Ефремова Н.Э., Клышинский Э.С., Лукашевич Н.В., Сапин А.С. Автоматическая обработка текстов на естественном языке и анализ данных. НИУ ВШЭ, 2017.
- Yoav Goldberg et. al. Neural Network Methods in Natural Language Processing
- LxMLS summer school Practical guide on NLP in Python
Другие курсы по NLP