Математические методы анализа текстов (курс лекций, К.В.Воронцов, А.А.Потапенко)
Материал из MachineLearning.
|
Математические методы анализа текстов. В курсе рассматриваются основные задачи и математические методы обработки естественного языка. Курс читается студентам кафедры «Интеллектуальные системы» ФУПМ МФТИ с 2018 года.
От студентов требуются знания курсов линейной алгебры, математического анализа, теории вероятностей, математической статистики, методов оптимизации, машинного обучения и нейронных сетей, языка программирования Python.
Краткая ссылка на эту страницу: http://bit.ly/2LFhfCA.
Предварительная программа курса
Занятие 1. (Воронцов К.В.) Введение в область анализа текстов (Natural Language Processing). Обзор задач, пирамида NLP, структура курса.
Занятие 2. (Потапенко А.) Задача языкового моделирования: генерация текста, исправление опечаток. Частотные языковые модели и способы сглаживания. Нейросетевые языковые модели.
Занятие 3. (Потапенко А.) Задачи разметки последовательностей: распознавание частей речи, выделение именованных сущностей. Скрытые марковские модели: алгоритм Витерби для декодирования и алгоритм Баума-Велша для обучения модели.
Занятие 4. (Попов А.) Рекуррентные нейронные сети для задач языкового моделирования и разметки последовательностей. Гибридная модель biLSTM-CRF.
Занятие 5. (Апишев М.) Инструментарий работы с данными в Python. Скачивание и предобработка текстов. Регулярные выражения (re), лемматизация (mystem, pymorphy), выделение коллокаций (TopMine). Размеченные корпуса и ресурсы (NLTK, WordNet).
Занятие 6. (Попов А.) Синтаксический анализ текстов: деревья зависимости и деревья составляющих. Инструменты SyntaxNet и UDPipe. Прикладные примеры.
Занятие 7. (Потапенко А.) Векторные представления слов, предложений и документов. Дистрибутивная гипотеза и методы матричного разложения. Модели Word2vec, GloVe, FastText, StarSpace, и проч.
Занятие 8. (Воронцов К.В.) Тематическое моделирование 1.
Занятие 9. (Воронцов К.В.) Тематическое моделирование 2.
Занятие 10. (Потапенко А.) Задачи преобразования последовательностей: машинный перевод, суммаризация. Encoder-decoder архитектура, механизм внимания. Способы работы с большим словарем.
Занятие 11. (Дербаносов Р.) Вопросно-ответные и диалоговые системы. Традиционный подход (IBM Watson) и нейросетевой подход (Google.Assistant, Яндекс.Алиса). Обработка диалогов в колл-центрах.
Занятие 12. (Апишев М.) Задачи анализа тональности и выделения мнений. Выбор признакового пространства для задач классификации, библиотеки sklearn, gensim, Vowpal Wabbit.
Занятие 13. (Потапенко А.) Обучение с подкреплением в NLP, алгоритм REINFORCE. Его применение для улучшения задачи анализа тональности с помощью синтаксических деревьев разбора.
Занятие 14. (Апишев М.) Поисковое ранжирование. Признаки, метрики, подводные камни.
Практические задания
Задание 1: Определение частей речи с помощью скрытой Марковской модели.
Задание 2: Распознавание именованных сущностей на твиттере с помощью модели biLSTM.
Задание 3: Обучение векторных представлений для ранжирования постов StackOverflow.
Задание 4: Мультиязычная тематическая модель в BigARTM.
Задание 5: Творческое задание.
См. также
- Математические методы анализа текстов (ВМиК МГУ) / 2017
- Машинное обучение (курс лекций, К.В.Воронцов)
- Вероятностные тематические модели (курс лекций, К.В.Воронцов)
- Глубинное обучение (курс лекций)
Литература
- Stewen Bird et. al. Natural Language Processing with Python. 2-nd edition. 2016.