Математические методы анализа текстов (МФТИ) / 2021

Материал из MachineLearning.

Перейти к: навигация, поиск

В курсе рассматриваются основные задачи и математические методы обработки естественного языка.

Курс читается:

От студентов требуются знание курса машинного обучения, основ глубинного обучения, а также языка программирования Python.

Содержание

Объявления

Нет

Контакты

  • В этом семестре занятия будут проводиться онлайн в zoom
  • По всем конструктивным вопросам пишите в telegram-чат
  • Репозиторий со всеми материалами: ссылка
  • Видеозаписи лекций 2020 года: ссылка
  • Короткая ссылка на страницу курса: TBA

Правила сдачи курса

Правила выставления итоговой оценки

В рамках курса предполагается четыре практических задания и экзамен. Практические задания сдаются в систему anytask (инвайт у преподавателя). Срок выполнения каждого задания — 2 недели. За каждое задание можно получить до 10-ти баллов. За каждый день просрочки назначается штраф 1 балл. Основной язык выполнения заданий — Python 3.

Студенты, набравшие за практические задания больше 40 баллов, получают автоматом максимальную оценку. Для остальных итоговая оценка по 10-ти балльной шкале вычисляется по следующей формуле:

TBA

Если после сдачи экзамена студенту не хватает баллов на положительную оценку, он отправляется на "пересдачу". Студент должен досдать домашние задания, которые он не сдавал в течение семестра, чтобы набрать баллы для получения минимальной удовлетворительной оценки. Домашние задания проверяются без учёта штрафа.

Программа курса

Дата Тема Материалы Д/З
1 02.09 Организация курса, правила игры.

Введение в обработку текстов (Natural Language Processing).

Предобработка, выделение признаков и классификация .

2 09.09 Векторные представления слов
3 15.09 Задача разметки последовательностей (tagging). Примеры задач.

Модель Linear-CRF, её упрощения и обобщения.

4 23.09

Модели рекуррентных нейронных сетей: RNN, LSTM.

Применение LSTM для разметки последовательности.

5 30.09 Машинный перевод. Подход Sequence-to-sequence.

Механизм внимания в подходе sequence-to-sequence.

Архитектура transformer.

6 13.10 Задача языкового моделирования.

Статистические и нейросетевые языковые модели.

Задача генерации естественного языка.

7 20.10 Контекстуальные векторные представления слов.

Transfer learning в NLP.

Модель BERT и её модификации.

8 28.10 Задача классификации текстов.

Дизайн индустриальной ML-системы.

9 03.11 Тематическое моделирование и его приложения.
10 11.11

Диалоговые и вопросно-ответные системы.

11 17.11 Синтаксический разбор и его применение в практических задачах.
12 24.11 Информационный поиск.

NLP в рекомендательных системах.

13 01.12 Автоматическая суммаризация текстов.
Личные инструменты