Вероятностные тематические модели (курс лекций, К.В.Воронцов)/2020
Материал из MachineLearning.
Программа спецкурса, прочитанного весной 2020 года студентам 2—5 курсов на кафедре «Математические методы прогнозирования» ВМиК МГУ.
Программа курса
Задача тематического моделирования
Презентация: (PDF, 6,4 МБ) — обновление 04.03.2021. Видеозапись
Цели и задачи тематического моделирования.
- Понятие «темы», цели и задачи тематического моделирования.
- Вероятностная модель порождения текста.
- EM-алгоритм и его элементарная интерпретация. Формула Байеса и частотные оценки условных вероятностей.
- Принцип максимума правдоподобия.
Аддитивная регуляризация тематических моделей.
- Понятие некорректно поставленной задачи по Адамару. Регуляризация.
- Лемма о максимизации на единичных симплексах. Условия Каруша–Куна–Таккера.
- Теорема о необходимом условии максимума регуляризованного правдоподобия для ARTM.
- Классические тематические модели PLSA и LDA как частные случаи ARTM.
- Мультимодальные тематические модели.
Библиотека BigARTM.
- Рациональный ЕМ-алгоритм (встраивание Е-шага внутрь М-шага).
- Оффлайновый регуляризованный EM-алгоритм.
- Онлайновый регуляризованный EM-алгоритм. Распараллеливание.
- Проект с открытым кодом BigARTM.
Разведочный информационный поиск
Презентация: (PDF, 10 МБ) — обновление 04.03.2021. Видеозапись
Разведочный информационный поиск.
- Концепция разведочного поиска.
- Особенности разведочного поиска.
- Поисково-рекомендательная система KnowledgeFactory.
Часто используемые регуляризаторы.
- Сглаживание, разреживание, декоррелирование.
- Модальности.
- Иерархии тем. Послойное построение иерархии. Псевдодокументы родительских тем.
Эксперименты с тематическим поиском.
- Методика измерения качества поиска.
- Тематическая модель для документного поиска.
- Оптимизация гиперпараметров.
Оценивание качества тематических моделей
Презентация: (PDF, 1,6 МБ) — обновление 04.10.2020. Видеозапись
Измерение качества тематических моделей.
- Правдоподобие и перплексия.
- Интерпретируемость и когерентность.
- Разреженность и различность.
Эксперименты с регуляризацией.
- Комбинирование регуляризаторов.
- Проблема определения числа тем.
- Проблема несбалансированности тем.
Проверка гипотезы условной независимости.
- Статистики на основе KL-дивергенции и их обобщения.
- Регуляризатор семантической однородности.
- Применение статистических тестов условной независимости.
Обзор базовых инструментов
Мурат Апишев. Презентация: (zip, 0,6 МБ) — обновление 17.02.2017. Видеозапись
Предварительная обработка текстов
- Парсинг "сырых" данных.
- Токенизация, стемминг и лемматизация.
- Выделение энграмм.
- Законы Ципфа и Хипса. Фильтрация словаря коллекции. Удаление стоп-слов.
Библиотека BigARTM
- Методологические рекоммендации по проведению экспериментов.
- Установка BigARTM.
- Формат и импорт входных данных.
- Обучение простой модели (без регуляризации): создание, инициализация, настройка и оценивание модели.
- Инструмент визуализации тематических моделей VisARTM. Основные возможности, демонстрация работы.
Дополнительный материал:
- Презентация: (PDF, 1,5 МБ) — обновление 17.03.2017.
- Видео — обновление 22.03.2017.
- Воркшоп по BigARTM на DataFest'4. Видео.
Тематические модели сочетаемости слов
Презентация: (PDF, 2,1 МБ) — обновление 07.10.2020. Видеозапись
Мультиграммные модели.
- Модель BigramTM.
- Модель Topical N-grams (TNG).
- Мультимодальная мультиграммная модель.
Автоматическое выделение терминов.
- Алгоритм TopMine для быстрого поиска частых фраз. Критерии выделения коллокаций.
- Синтаксический разбор. Нейросетевой синтаксический анализатор SyntaxNet.
- Критерии тематичности фраз.
- Комбинирование синтаксической, статистической и тематической фильтрации фраз.
Тематические модели дистрибутивной семантики.
- Дистрибутивная гипотеза. Модели CBOW и SGNS в программе word2vec.
- Модель битермов BTM (Biterm Topic Model) для тематизации коллекций коротких текстов.
- Модели WNTM (Word Network Topic Model) и WTM (Word Topic Model). Связь с моделью word2vec.
- Понятие когерентности (согласованности). Экспериментально установленная связь когерентности и интерпретируемости.
- Регуляризаторы когерентности.
Дополнительный материал:
- Потапенко А. А. Векторные представления слов и документов. DataFest'4. Видео.
Анализ зависимостей
Презентация: (PDF, 1,9 МБ) — обновление 28.10.2020. Видеозапись
Зависимости, корреляции, связи.
- Тематические модели классификации и регрессии.
- Модель коррелированных тем CTM (Correlated Topic Model).
- Регуляризаторы гиперссылок и цитирования. Выявление тематических влияний в научных публикациях.
Время и пространство.
- Регуляризаторы времени.
- Обнаружение и отслеживание тем.
- Гео-пространственные модели.
Социальные сети.
- Сфокусированный поиск в социальных медиа (пример: поиск этно-релевантного контента).
- Выявление тематических сообществ. Регуляризаторы для направленных и ненаправленных связей.
- Регуляризаторы для выявления социальных ролей пользователей.
Мультимодальные тематические модели
Презентация: (PDF, 2,7 МБ) — обновление 28.10.2020. Видеозапись
Мультиязычные тематические модели.
- Параллельные и сравнимые коллекции.
- Регуляризаторы для учёта двуязычных словарей.
- Кросс-язычный информационный поиск.
Трёхматричные и гиперграфовые модели.
- Модели трёхматричных разложений. Понятие порождающей модальности.
- Автор-тематическая модель (author-topic model).
- Модель для выделения поведений объектов в видеопотоке.
Тематические модели транзакционных данных.
- Примеры транзакционных данных в рекомендательных системах, социальных и рекламных сетях.
- Гиперграфовая модель ARTM. Теорема о необходимом условии максимума регуляризованного правдоподобия.
- Анализ транзакционных данных для выявления паттернов экономического поведения клиентов банка. Видео.
- Анализ банковских транзакционных данных для выявления видов деятельности компаний.
Моделирование связного текста
Презентация: (PDF, 2,5 МБ) — обновление 28.10.2020. Видеозапись
Модели связного текста.
- Тематическая модель предложений и модель коротких сообщений Twitter-LDA.
- Контекстная документная кластеризация (CDC).
- Метод лексических цепочек.
Тематическая сегментация.
- Метод TopicTiling. Критерии определения границ сегментов.
- Критерии качества сегментации.
- Оптимизация параметров модели TopicTiling.
Позиционный регуляризатор в ARTM.
- Гипотеза о сегментной структуре текста.
- Регуляризация и пост-обработка Е-шага. Формулы М-шага.
- Примеры регуляризаторов Е-шага. Разреживание распределения p(t|d,w). Сглаживание тематики слов по контексту.
Теория ЕМ-алгоритма
Презентация: (PDF, 1,2 МБ) — обновление 18.11.2020. Видеозапись
Классические модели PLSA, LDA.
- Модель PLSA.
- Модель LDA. Распределение Дирихле и его свойства.
- Максимизация апостериорной вероятности для модели LDA.
Общий EM-алгоритм.
- EM-алгоритм для максимизации неполного правдоподобия.
- Регуляризованный EM-алгоритм. Сходимость в слабом смысле.
- Альтернативный вывод формул ARTM.
Эксперименты с моделями PLSA, LDA.
- Проблема неустойчивости (на синтетических данных).
- Проблема неустойчивости (на реальных данных).
- Проблема переобучения и робастные модели.
Байесовское обучение модели LDA
Презентация: (PDF, 1,9 МБ) — обновление 18.11.2020. Видеозапись
Вариационный байесовский вывод.
- Основная теорема вариационного байесовского вывода.
- Вариационный байесовский вывод для модели LDA.
- VB ЕМ-алгоритм для модели LDA.
Сэмплирование Гиббса.
- Основная теорема о сэмплировании Гиббса.
- Сэмплирование Гиббса для модели LDA.
- GS ЕМ-алгоритм для модели LDA.
Замечания о байесовском подходе.
- Оптимизация гиперпараметров в LDA.
- Графическая нотация (plate notation). Stop using plate notation.
- Сравнение байесовского подхода и ARTM.
- Как читать статьи по баейсовским моделям и строить эквивалентные ARTM-модели.
Суммаризация и автоматическое именование тем
Презентация: (PDF, 3,0 МБ) — обновление 25.11.2020. Видеозапись
Методы суммаризации текстов.
- Задачи автоматической суммаризации текстов. Подходы к суммаризации: extractive и abstractive.
- Оценивание и отбор предложений для суммаризации. Релаксационный метод для многокритериальной дискретной оптимизации.
- Тематическая модель предложений для суммаризации.
- Критерии качества суммаризации. Метрики ROUGE, BLUE.
Автоматическое именование тем (topic labeling).
- Формирование названий-кандидатов.
- Релевантность, покрытие, различность.
- Оценивание качества именования тем.
Тематическое моделирование связного текста
- Тематизация фрагментов текста для суммаризации и именования тем.
- Тематическое моделирование без матрицы .
- Двунаправленная тематическая модель контекста.
Визуализация
Презентация: (PDF, 10,1 МБ) — обновление 11.01.2021. Видеозапись
Визуализация больших текстовых коллекций
- Концепция distant reading
- Карты знаний
- Иерархии, взаимосвязи, динамика, сегментация
Визуализация тематических моделей
- Визуализация матричного разложения
- Проект VisARTM
- Спектр тем
Визуализация для научного разведочного поиска
- Тематическая карта
- Задача оценивания когнитивной сложности текста
- Иерархическая тематическая суммаризация
Отчетность по курсу
Условием сдачи курса является выполнение индивидуальных практических заданий.
Рекомендуемая структура отчёта об исследовании по индивидуальному заданию:
- Постановка задачи: неформальное описание, ДНК (дано–найти–критерий), структура данных
- Описание простого решения baseline
- Описание основного решения и его вариантов
- Описание набора данных и методики экспериментов
- Результаты экспериментов по подбору гиперпараметров основного решения
- Результаты экспериментов по сравнению основного решения с baseline
- Примеры визуализации модели
- Выводы: что работает, что не работает, инсайты
- Ссылка на код
Примеры отчётов:
Литература
- Воронцов К. В. Обзор вероятностных тематических моделей. 2021.
- Hamed Jelodar, Yongli Wang, Chi Yuan, Xia Feng. Latent Dirichlet Allocation (LDA) and Topic modeling: models, applications, a survey. 2017.
- Hofmann T. Probabilistic latent semantic indexing // Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval. — New York, NY, USA: ACM, 1999. — Pp. 50–57.
- Blei D. M., Ng A. Y., Jordan M. I. Latent Dirichlet allocation // Journal of Machine Learning Research. — 2003. — Vol. 3. — Pp. 993–1022.
- Asuncion A., Welling M., Smyth P., Teh Y. W. On smoothing and inference for topic models // Proceedings of the International Conference on Uncertainty in Artificial Intelligence. — 2009.
- Янина А. О., Воронцов К. В. Мультимодальные тематические модели для разведочного поиска в коллективном блоге // Машинное обучение и анализ данных. 2016. T.2. №2. С.173-186.
Ссылки
- Тематическое моделирование
- Аддитивная регуляризация тематических моделей
- Коллекции документов для тематического моделирования
- BigARTM
- Видеозапись лекции на ТМШ, 19 июня 2015
- Воронцов К.В. Практическое задание по тематическому моделированию, 2014.