Математические методы анализа текстов (курс лекций, К.В.Воронцов, А.А.Потапенко)

Материал из MachineLearning.

Версия от 08:41, 31 августа 2018; AnyaP (Обсуждение | вклад)

(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)

Содержание

1 Предварительная программа курса
2 Практические задания
3 См. также
4 Литература

Математические методы анализа текстов. В курсе рассматриваются основные задачи и математические методы обработки естественного языка. Курс читается студентам кафедры «Интеллектуальные системы» ФУПМ МФТИ с 2018 года.

От студентов требуются знания курсов линейной алгебры, математического анализа, теории вероятностей, математической статистики, методов оптимизации, машинного обучения и нейронных сетей, языка программирования Python.

Краткая ссылка на эту страницу: http://bit.ly/2LFhfCA.

Предварительная программа курса

Занятие 1. (Воронцов К.В.) Введение в область анализа текстов (Natural Language Processing). Обзор задач, пирамида NLP, структура курса.

Занятие 2. (Потапенко А.) Задача языкового моделирования: генерация текста, исправление опечаток. Частотные языковые модели и способы сглаживания. Нейросетевые языковые модели.

Занятие 3. (Потапенко А.) Задачи разметки последовательностей: распознавание частей речи, выделение именованных сущностей. Скрытые марковские модели: алгоритм Витерби для декодирования и алгоритм Баума-Велша для обучения модели.

Занятие 4. (Попов А.) Рекуррентные нейронные сети для задач языкового моделирования и разметки последовательностей. Гибридная модель biLSTM-CRF.

Занятие 5. (Апишев М.) Инструментарий работы с данными в Python. Скачивание и предобработка текстов. Регулярные выражения (re), лемматизация (mystem, pymorphy), выделение коллокаций (TopMine). Размеченные корпуса и ресурсы (NLTK, WordNet).

Занятие 6. (Попов А.) Синтаксический анализ текстов: деревья зависимости и деревья составляющих. Инструменты SyntaxNet и UDPipe. Прикладные примеры.

Занятие 7. (Потапенко А.) Векторные представления слов, предложений и документов. Дистрибутивная гипотеза и методы матричного разложения. Модели Word2vec, GloVe, FastText, StarSpace, и проч.

Занятие 8. (Воронцов К.В.) Тематическое моделирование 1.

Занятие 9. (Воронцов К.В.) Тематическое моделирование 2.

Занятие 10. (Потапенко А.) Задачи преобразования последовательностей: машинный перевод, суммаризация. Encoder-decoder архитектура, механизм внимания. Способы работы с большим словарем.

Занятие 11. (Дербаносов Р.) Вопросно-ответные и диалоговые системы. Традиционный подход (IBM Watson) и нейросетевой подход (Google.Assistant, Яндекс.Алиса). Обработка диалогов в колл-центрах.

Занятие 12. (Апишев М.) Задачи анализа тональности и выделения мнений. Выбор признакового пространства для задач классификации, библиотеки sklearn, gensim, Vowpal Wabbit.

Занятие 13. (Потапенко А.) Обучение с подкреплением в NLP, алгоритм REINFORCE. Его применение для улучшения задачи анализа тональности с помощью синтаксических деревьев разбора.

Занятие 14. (Апишев М.) Поисковое ранжирование. Признаки, метрики, подводные камни.

Практические задания

Задание 1: Определение частей речи с помощью скрытой Марковской модели.

Задание 2: Распознавание именованных сущностей на твиттере с помощью модели biLSTM.

Задание 3: Обучение векторных представлений для ранжирования постов StackOverflow.

Задание 4: Мультиязычная тематическая модель в BigARTM.

Задание 5: Творческое задание.

См. также

Литература

Stewen Bird et. al. Natural Language Processing with Python. 2-nd edition. 2016.

Источник — «http://machinelearning.ru/wiki/index.php?title=%D0%9C%D0%B0%D1%82%D0%B5%D0%BC%D0%B0%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B8%D0%B5_%D0%BC%D0%B5%D1%82%D0%BE%D0%B4%D1%8B_%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7%D0%B0_%D1%82%D0%B5%D0%BA%D1%81%D1%82%D0%BE%D0%B2_%28%D0%BA%D1%83%D1%80%D1%81_%D0%BB%D0%B5%D0%BA%D1%86%D0%B8%D0%B9%2C_%D0%9A.%D0%92.%D0%92%D0%BE%D1%80%D0%BE%D0%BD%D1%86%D0%BE%D0%B2%2C_%D0%90.%D0%90.%D0%9F%D0%BE%D1%82%D0%B0%D0%BF%D0%B5%D0%BD%D0%BA%D0%BE%29»

Категория: Учебные курсы

Математические методы анализа текстов (курс лекций, К.В.Воронцов, А.А.Потапенко)

Материал из MachineLearning.

Содержание

Предварительная программа курса

Практические задания

См. также

Литература

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты