Математические методы анализа текстов (курс лекций, К.В.Воронцов, А.А.Потапенко)

Материал из MachineLearning.

(Различия между версиями)

Версия 12:54, 3 октября 2018

Содержание

1 Преподаватели и контакты
2 Новости курса
3 Программа курса
4 Практические задания
5 См. также
6 Материалы
- 6.1 Литература
- 6.2 Инструменты для работы с текстами

Математические методы анализа текстов. В курсе рассматриваются основные задачи и математические методы обработки естественного языка. Курс читается студентам кафедры «Интеллектуальные системы» ФУПМ МФТИ с 2018 года.

От студентов требуются знания курсов линейной алгебры, математического анализа, теории вероятностей, математической статистики, методов оптимизации, машинного обучения и нейронных сетей, языка программирования Python.

Краткая ссылка на эту страницу: http://bit.ly/2LFhfCA.

Преподаватели и контакты

Лекторы: Воронцов К.В., Потапенко А.А.

Семинаристы: Апишев Мурат, Попов Артем

Ассистенты: Дербаносов Роман, Шаталов Николай

Чат в телеграме: https://t.me/mmta_2018

Новости курса

Внимание! Появилась первое домашнее задание, дедлайн: 10 октября.

Программа курса

Занятие 1. (Воронцов К.В.) Введение в область анализа текстов (Natural Language Processing). Обзор задач, пирамида NLP, структура курса.

Презентация

Занятие 2. (Потапенко А.) Задача языкового моделирования: генерация текста, исправление опечаток. Частотные языковые модели и способы сглаживания. Нейросетевые языковые модели.

Презентация

Занятие 3. (Попов А.) Рекуррентные нейронные сети для задач языкового моделирования и разметки последовательностей. Гибридная модель biLSTM-CRF.

Презентация

Занятие 4. (Потапенко А.) Задачи разметки последовательностей: распознавание частей речи, выделение именованных сущностей. Скрытые марковские модели: алгоритм Витерби для декодирования и алгоритм Баума-Велша для обучения модели.

Презентация

Занятие 5. (Апишев М.) Инструментарий работы с данными в Python. Предобработка текстов. Регулярные выражения (re), лемматизация (mystem, pymorphy), выделение коллокаций. Выбор признакового пространства для задач классификации; библиотеки sklearn, gensim, Vowpal Wabbit.

Презентация

Занятие 6. (Попов А.) Синтаксический анализ текстов: деревья зависимости и деревья составляющих. Инструменты SyntaxNet и UDPipe. Прикладные примеры.

Занятие 7. (Потапенко А.) Векторные представления слов, предложений и документов. Дистрибутивная гипотеза и методы матричного разложения. Модели Word2vec, GloVe, FastText, StarSpace, и проч.

Занятие 8. (Воронцов К.В.) Тематическое моделирование: модели PLSA и LDA, два способа вывода EM-алгоритма, регуляризация и модальности, примеры регуляризаторов. Проект BigARTM.

Занятие 9. (Воронцов К.В.) Виды тематических моделей: иерархические, темпоральные, n-граммные, дистрибутивные, сегментирующие, гиперграфовые. Пример приложения: разведочный информационный поиск.

Занятие 10. (Потапенко А.) Задачи преобразования последовательностей: машинный перевод, суммаризация. Encoder-decoder архитектура, механизм внимания. Способы работы с большим словарем.

Занятие 11. (Дербаносов Р.) Вопросно-ответные и диалоговые системы. Традиционный подход (IBM Watson) и нейросетевой подход (Google.Assistant, Яндекс.Алиса). Обработка диалогов в колл-центрах.

Занятие 12. (Апишев М.) Задачи анализа тональности и выделения мнений.

Занятие 13. (Потапенко А.) Обучение с подкреплением в NLP, алгоритм REINFORCE. Его применение для улучшения задачи анализа тональности с помощью синтаксических деревьев разбора.

Занятие 14. (Апишев М.) Поисковое ранжирование. Признаки, метрики, подводные камни.

Практические задания

Все задания сдаются в систему Anytask. Инвайт: Cbwc4tF

Задание 1: Определение частей речи с помощью скрытой марковской модели.

Архив с заданием 1

Задание 2: Распознавание именованных сущностей на твиттере с помощью модели biLSTM.

Архив с заданием 2

Задание 3: Обучение векторных представлений для ранжирования постов StackOverflow.

Задание 4: Мультиязычная тематическая модель в BigARTM.

Задание 5: Творческое задание.

См. также

Материалы

Литература

Dan Jurafsky and James H. Martin Speech and Language Processing (3rd ed. draft)
Stewen Bird et. al. Natural Language Processing with Python. 2-nd edition. 2016.
Большакова Е.И., Воронцов К.В., Ефремова Н.Э., Клышинский Э.С., Лукашевич Н.В., Сапин А.С. Автоматическая обработка текстов на естественном языке и анализ данных. НИУ ВШЭ, 2017.
LxMLS summer school Practical guide on NLP in Python

Инструменты для работы с текстами

Источник — «http://machinelearning.ru/wiki/index.php?title=%D0%9C%D0%B0%D1%82%D0%B5%D0%BC%D0%B0%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B8%D0%B5_%D0%BC%D0%B5%D1%82%D0%BE%D0%B4%D1%8B_%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7%D0%B0_%D1%82%D0%B5%D0%BA%D1%81%D1%82%D0%BE%D0%B2_%28%D0%BA%D1%83%D1%80%D1%81_%D0%BB%D0%B5%D0%BA%D1%86%D0%B8%D0%B9%2C_%D0%9A.%D0%92.%D0%92%D0%BE%D1%80%D0%BE%D0%BD%D1%86%D0%BE%D0%B2%2C_%D0%90.%D0%90.%D0%9F%D0%BE%D1%82%D0%B0%D0%BF%D0%B5%D0%BD%D0%BA%D0%BE%29»

Категория: Учебные курсы

@@ Строка 75: / Строка 75: @@
 == Практические задания ==
-'''Инвайт на курс в энитаске:''' Cbwc4tF
+Все задания сдаются в систему Anytask. '''Инвайт:''' Cbwc4tF
 '''Задание 1:''' Определение частей речи с помощью скрытой марковской модели.
-* [[media:Pos_mmta_2018.zip‎ | Архив с заданием]]
+* [[media:Pos_mmta_2018.zip‎ | Архив с заданием 1]]
 '''Задание 2:''' Распознавание именованных сущностей на твиттере с помощью модели biLSTM.
+* [[media:Lab2_mmta_2018.zip‎ | Архив с заданием 2]]
 '''Задание 3:''' Обучение векторных представлений для ранжирования постов StackOverflow.