Математические методы анализа текстов (курс лекций, К.В.Воронцов, А.А.Потапенко)

Материал из MachineLearning.

Перейти к: навигация, поиск

Содержание

Математические методы анализа текстов. В курсе рассматриваются основные задачи и математические методы обработки естественного языка. Курс читается студентам кафедры «Интеллектуальные системы» ФУПМ МФТИ с 2018 года.

От студентов требуются знания курсов линейной алгебры, математического анализа, теории вероятностей, математической статистики, методов оптимизации, машинного обучения и нейронных сетей, языка программирования Python.

Краткая ссылка на эту страницу: http://bit.ly/2LFhfCA.

Преподаватели и контакты

Лекторы: Воронцов К.В., Потапенко Анна.

Семинаристы: Апишев Мурат, Попов Артем

Ассистенты: Дербаносов Роман, Шаталов Николай

Чат в телеграме для всех содержательных вопросов.

Почта: anna.a.potapenko at gmail.com для всех остальных вопросов :)

Практические задания

Все задания сдаются в систему Anytask. Инвайт: Cbwc4tF.

Задание 1 (до 10 октября): Определение частей речи с помощью скрытой марковской модели.

Задание 2 (до 24 октября): Распознавание именованных сущностей на твиттере с помощью модели biLSTM.

Задание 3: (до 10 ноября): Обучение векторных представлений для ранжирования постов StackOverflow.

Задание 4: (до 1 декабря) Мультиязычный тематический поиск.

Бонусное задание: Решение одной из задач конкурса SemEval.


Формула для выставления оценки за курс:

  • оценка = \min\left(\left\lceil \frac{X}{4} \right\rceil, \; 10 \right), где X - сумма баллов за задания.

Программа курса

Занятие 1. (Воронцов К.В.) Введение в область анализа текстов (Natural Language Processing). Обзор задач, пирамида NLP, структура курса.

Занятие 2. (Потапенко А.) Задача языкового моделирования: генерация текста, исправление опечаток. Частотные языковые модели и способы сглаживания. Нейросетевые языковые модели.

Занятие 3. (Попов А.) Рекуррентные нейронные сети для задач языкового моделирования и разметки последовательностей. Гибридная модель biLSTM-CRF.

Занятие 4. (Потапенко А.) Задачи разметки последовательностей: распознавание частей речи, выделение именованных сущностей. Скрытые марковские модели: алгоритм Витерби для декодирования и алгоритм Баума-Велша для обучения модели.

Занятие 5. (Апишев М.) Инструментарий работы с данными в Python. Предобработка текстов. Регулярные выражения (re), лемматизация (mystem, pymorphy), выделение коллокаций.

Занятие 6. (Апишев М.) Выбор признакового пространства для задач классификации; библиотеки sklearn, gensim, Vowpal Wabbit. Задачи анализа тональности. Нейросетевые архитектуры для задач классификации коротких текстов.

Занятие 7. (Апишев М.) Поисковое ранжирование. Признаки, метрики, подводные камни.

Занятие 8. (Потапенко А.) Векторные представления слов, предложений и документов. Дистрибутивная гипотеза и методы матричного разложения. Модели SGNS, GloVe, FastText, StarSpace, ELMo.

Занятие 9. (Воронцов К.В.) Тематическое моделирование: модели PLSA и LDA, два способа вывода EM-алгоритма, регуляризация и модальности, примеры регуляризаторов. Проект BigARTM.

Занятие 10. (Воронцов К.В.) Виды тематических моделей: иерархические, темпоральные, n-граммные, дистрибутивные, сегментирующие, гиперграфовые. Пример приложения: разведочный информационный поиск.

Занятие 11. (Потапенко А.) Машинный перевод как задача преобразования последовательностей. Статистические и нейросетевые методы. Способы работы с большим словарем.

Занятие 12. (Потапенко А.) Глубокие представления текста. Модели Skip-thought vectors (на RNN), Universal Sentence Encoder (на DAN или Transducer), bi-CNN для определения парафраза.

Занятие 13. (Дербаносов Р.) Вопросно-ответные и диалоговые системы. Традиционный подход (IBM Watson) и нейросетевой подход (Google.Assistant, Яндекс.Алиса). Обработка диалогов в колл-центрах.

Занятие 14. (Потапенко А.) Обучение с подкреплением в NLP, алгоритм REINFORCE. Примеры применения: суммаризация текстов, сентимент-анализ, машинный перевод, диалоговые системы.

Занятие 15. (Потапенко А.) Выступления по результатам заданий SemEval. Консультация.

Экзамен

Вопросы и теоретический минимум к экзамену для кафедры РВК факультета ФИВТ:

См. также

Материалы

Литература

  1. Dan Jurafsky and James H. Martin Speech and Language Processing (3rd ed. draft)
  2. Stewen Bird et. al. Natural Language Processing with Python. 2-nd edition. 2016.
  3. Большакова Е.И., Воронцов К.В., Ефремова Н.Э., Клышинский Э.С., Лукашевич Н.В., Сапин А.С. Автоматическая обработка текстов на естественном языке и анализ данных. НИУ ВШЭ, 2017.
  4. LxMLS summer school Practical guide on NLP in Python

Инструменты для работы с текстами

Личные инструменты