Математические методы анализа текстов (курс лекций) / осень 2019

Материал из MachineLearning.

Перейти к: навигация, поиск

Содержание

В курсе рассматриваются основные задачи и математические методы обработки естественного языка.

Курс читается:

От студентов требуются знание курса машинного обучения, основ глубинного обучения, а также языка программирования Python.

Контакты

  • На ВМК занятия проходят в аудитории 72 по вторникам, начало в 10:30
  • В ФИЦ ИУ РАН занятия по средам, начало в 16:10
  • По всем конструктивным вопросам пишите в telegram-чат
  • Репозиторий со всеми материалами: ссылка
  • Короткая ссылка на страницу курса: ссылка

Правила сдачи курса

  • В рамках курса предполагается четыре практических задания и экзамен.
  • Практические задания сдаются в систему anytask (инвайт у преподавателя). Срок выполнения каждого задания — 2 недели. За каждое задание можно получить до 10-ти баллов. За каждый день просрочки назначается штраф 1 балл. Основной язык выполнения заданий — Python 3.
  • Все практические задания выполняются самостоятельно. Любые работы, содержащие плагиат, оцениваются в 0 баллов.
  • Правила сдачи экзамена появятся позднее.

Правила выставления итоговой оценки

X_e — оценка за экзамен по 10-ти балльной шкале, X_d — суммарная оценка студента за практические задания, X_{max} — максимальная оценка за практические задания (без учёта бонусов)

  • Если X_d / X_{max} \geq 1 — максимальная оценка автоматом
  • Если X_d / X_{max} < 0.125 — пересдача автоматом
  • Иначе, оценка в 10-ти балльной шкале вычисляется как  X_e + round(8 X_d / X_{max} - 4.5)
  • Для ВМК и МАИ: 3-4 — оценка удовлетворительно, 5-7 — оценка хорошо, 8-10 — оценка отлично
  • Правила выставления оценки на пересдаче будут обговариваться отдельно в конце курса

Программа курса

Дата Тема Материалы Д/З
1 2019-09-04 Введение в область анализа текстов (Natural Language Processing). Обзор основных задач. слайды
2 2019-09-11 Предобработка данных. Простейшие модели классификации. слайды
3 2019-09-18 Векторные представления слов. слайды практическое задание 1
4 2019-09-25 Задача теггинга последовательности. Условные случайные поля (CRF). слайды
5 2019-10-02 Задача теггинга последовательности. Нейросетевые и комбинированные модели для теггинга. слайды практическое задание 2
6 2019-10-09 Языковое моделирование. Генерация текста на естественном языке. слайды
7 2019-10-16 Sequence-to-sequence, механизмы внимания, трансформеры. Машинный перевод. слайды
8 2019-10-23 Глубокие архитектуры представления предложений и документов. Перенос обучения. слайды
9 2019-10-30 Синтаксический разбор и его применение в практических задачах.
10 2019-11-06 Задача классификации текстов.
11 2019-11-13 Тематическое моделирование.
12 2019-11-20 Сегментация и суммаризация текстов.
13 2019-11-27 To be announced
14 2019-12-04 To be announced

Страницы прошлых лет

2018 (ФУПМ МФТИ), 2018 (ВМК МГУ)

2017 (ВМК МГУ)

Дополнительные материалы

Литература

Другие курсы по NLP

Личные инструменты