Математические методы анализа текстов (курс лекций) / осень 2019
Материал из MachineLearning.
|
В курсе рассматриваются основные задачи и математические методы обработки естественного языка.
Курс читается:
- студентам кафедры «Математические методы прогнозирования» ВМК МГУ с 2016 года
- студентам кафедры «Интеллектуальные системы» ФУПМ МФТИ с 2018 года
От студентов требуются знание курса машинного обучения, основ глубинного обучения, а также языка программирования Python.
Контакты
- Преподаватели курса: Воронцов К.В., Апишев М.А., Попов А.С.
- На ВМК занятия проходят в аудитории 72 по вторникам, начало в 10:30
- В ФИЦ ИУ РАН занятия по средам, начало в 16:10
- По всем конструктивным вопросам пишите в telegram-чат
- Репозиторий со всеми материалами: ссылка
- Короткая ссылка на страницу курса: ссылка
Правила сдачи курса
- В рамках курса предполагается четыре практических задания и экзамен.
- Практические задания сдаются в систему anytask (инвайт у преподавателя). Срок выполнения каждого задания — 2 недели. За каждое задание можно получить до 10-ти баллов. За каждый день просрочки назначается штраф 1 балл. Основной язык выполнения заданий — Python 3.
- Все практические задания выполняются самостоятельно. Любые работы, содержащие плагиат, оцениваются в 0 баллов.
- Правила сдачи экзамена появятся позднее.
Правила выставления итоговой оценки
— оценка за экзамен по 10-ти балльной шкале, — суммарная оценка студента за практические задания, — максимальная оценка за практические задания (без учёта бонусов)
- Если — максимальная оценка автоматом
- Если — пересдача автоматом
- Иначе, оценка в 10-ти балльной шкале вычисляется как
- Для ВМК и МАИ: 3-4 — оценка удовлетворительно, 5-7 — оценка хорошо, 8-10 — оценка отлично
- Правила выставления оценки на пересдаче будут обговариваться отдельно в конце курса
Программа курса
№ | Дата | Тема | Материалы | Д/З |
---|---|---|---|---|
1 | 2019-09-03 / 2019-09-05 | Введение в область анализа текстов (Natural Language Processing). Обзор основных задач. | слайды | |
2 | 2019-09-03 / 2019-09-11 | Предобработка данных. Простейшие модели классификации. | слайды | |
3 | 2019-09-10 / 2019-09-18 | Векторные представления слов. | слайды | практическое задание 1 |
4 | 2019-09-24 / 2019-09-25 | Задача теггинга последовательности. Условные случайные поля (CRF). | слайды | |
5 | 2019-10-01 / 2019-10-02 | Задача теггинга последовательности. Нейросетевые и комбинированные модели для теггинга. | слайды | практическое задание 2 |
6 | 2019-10-08 / 2019-10-09 | Языковое моделирование. Генерация текста на естественном языке. | слайды | |
7 | 2019-10-15 / 2019-10-16 | Sequence-to-sequence, механизмы внимания, трансформеры. Машинный перевод. | слайды | |
8 | 2019-10-22 / 2019-10-23 | Глубокие архитектуры представления предложений и документов. Перенос обучения. | слайды | |
9 | 2019-10-30 | Синтаксический разбор и его применение в практических задачах. | ||
10 | 2019-11-06 | Задача классификации текстов. | ||
11 | 2019-11-13 | Тематическое моделирование. | ||
12 | 2019-11-20 | Сегментация и суммаризация текстов. | ||
13 | 2019-11-27 | To be announced | ||
14 | 2019-12-04 | To be announced |
Страницы прошлых лет
2018 (ФУПМ МФТИ), 2018 (ВМК МГУ)
Дополнительные материалы
Литература
- Dan Jurafsky and James H. Martin Speech and Language Processing (3rd ed. draft)
- Stewen Bird et. al. Natural Language Processing with Python. 2-nd edition. 2016.
- Большакова Е.И., Воронцов К.В., Ефремова Н.Э., Клышинский Э.С., Лукашевич Н.В., Сапин А.С. Автоматическая обработка текстов на естественном языке и анализ данных. НИУ ВШЭ, 2017.
- LxMLS summer school Practical guide on NLP in Python
Другие курсы по NLP