Вероятностные тематические модели (курс лекций, К.В.Воронцов)/2021
Материал из MachineLearning.
Программа курса
Задача тематического моделирования
Презентация: (PDF, 2,8 МБ) — обновление 14.02.2023. Видеозапись
Цели и задачи тематического моделирования.
- Понятие «темы», цели и задачи тематического моделирования.
- Вероятностная модель порождения текста.
- EM-алгоритм и его элементарная интерпретация. Формула Байеса и частотные оценки условных вероятностей.
- Принцип максимума правдоподобия.
Аддитивная регуляризация тематических моделей.
- Понятие некорректно поставленной задачи по Адамару. Регуляризация.
- Лемма о максимизации на единичных симплексах. Условия Каруша–Куна–Таккера.
- Теорема о необходимом условии максимума регуляризованного правдоподобия для ARTM.
- Классические тематические модели PLSA и LDA как частные случаи ARTM.
- Мультимодальные тематические модели.
Практика тематического моделирования.
- Проект с открытым кодом BigARTM.
- Этапы решения практических задач.
- Методы предварительной обработки текста.
- Датасеты и практические задания по курсу.
Онлайновый ЕМ-алгоритм и регуляризаторы
Презентация: (PDF, 1,0 МБ) — обновление 18.09.2021. Видеозапись
Онлайновый ЕМ-алгоритм.
- Рациональный ЕМ-алгоритм (встраивание Е-шага внутрь М-шага).
- Оффлайновый регуляризованный EM-алгоритм.
- Онлайновый пакетный мультимодальный регуляризованный EM-алгоритм. Распараллеливание.
- Как подбирать коэффициенты регуляризации.
- Относительные коэффициенты регуляризации.
- Библиотеки BigARTM и TopicNet.
Часто используемые регуляризаторы.
- Сглаживание и разреживание.
- Частичное обучение.
- Декоррелирование тем.
Проблема определения числа тем.
- Разреживающий регуляризатор для отбора тем.
- Эксперименты на синтетических и реальных данных.
- Сравнение с байесовской моделью HDP (Hierarchical Dirichlet Process).
- Эффект отбрасывания малых, дублирующих и линейно зависимых тем.
Разведочный информационный поиск
Презентация: (PDF, 2,5 МБ) — обновление 30.09.2021. Видеозапись
Разведочный информационный поиск.
- Концепция разведочного поиска.
- Особенности разведочного поиска.
- Поисково-рекомендательная система SciSarch.AI
Иерархические тематические модели.
- Иерархии тем. Послойное построение иерархии.
- Регуляризаторы для разделения тем на подтемы.
- Псевдодокументы родительских тем.
- Модальность родительских тем.
Эксперименты с тематическим поиском.
- Методика измерения качества поиска.
- Тематическая модель для документного поиска.
- Оптимизация гиперпараметров.
Оценивание качества тематических моделей
Презентация: (PDF, 1,3 МБ) — обновление 30.09.2021. Видеозапись
Измерение качества тематических моделей.
- Правдоподобие и перплексия.
- Интерпретируемость и когерентность.
- Разреженность и различность.
Эксперименты с регуляризацией.
- Комбинирование регуляризаторов сглаживания, разреживания, декоррелирования и отбора тем.
- Проблема несбалансированности тем.
Проверка гипотезы условной независимости.
- Статистики на основе KL-дивергенции и их обобщения.
- Регуляризатор семантической однородности.
- Применение статистических тестов условной независимости.
BigARTM и базовые инструменты
Мурат Апишев. Презентация: (zip, 0,6 МБ) — обновление 17.02.2017. Видеозапись
Предварительная обработка текстов
- Парсинг «сырых» данных.
- Токенизация, стемминг и лемматизация.
- Выделение энграмм.
- Законы Ципфа и Хипса. Фильтрация словаря коллекции. Удаление стоп-слов.
Библиотека BigARTM
- Методологические рекоммендации по проведению экспериментов.
- Установка BigARTM.
- Формат и импорт входных данных.
- Обучение простой модели (без регуляризации): создание, инициализация, настройка и оценивание модели.
- Инструмент визуализации тематических моделей VisARTM. Основные возможности, демонстрация работы.
Дополнительный материал:
- Презентация: (PDF, 1,5 МБ) — обновление 17.03.2017.
- Видео — обновление 22.03.2017.
- Воркшоп по BigARTM на DataFest'4. Видео.
Теория ЕМ-алгоритма
Презентация: (PDF, 1,3 МБ) — обновление 18.09.2021. Видеозапись
Классические модели PLSA, LDA.
- Модель PLSA.
- Модель LDA. Распределение Дирихле и его свойства.
- Максимизация апостериорной вероятности для модели LDA.
Общий EM-алгоритм.
- EM-алгоритм для максимизации неполного правдоподобия.
- Регуляризованный EM-алгоритм. Сходимость в слабом смысле.
- Альтернативный вывод формул ARTM.
Эксперименты с моделями PLSA, LDA.
- Проблема неустойчивости (на синтетических данных).
- Проблема неустойчивости (на реальных данных).
- Проблема переобучения и робастные модели.
Байесовское обучение модели LDA
Презентация: (PDF, 1,5 МБ) — обновление 14.10.2021. Видеозапись
Вариационный байесовский вывод.
- Основная теорема вариационного байесовского вывода.
- Вариационный байесовский вывод для модели LDA.
- VB ЕМ-алгоритм для модели LDA.
Сэмплирование Гиббса.
- Основная теорема о сэмплировании Гиббса.
- Сэмплирование Гиббса для модели LDA.
- GS ЕМ-алгоритм для модели LDA.
Замечания о байесовском подходе.
- Оптимизация гиперпараметров в LDA.
- Графическая нотация (plate notation). Stop using plate notation.
- Сравнение байесовского подхода и ARTM.
- Как читать статьи по баейсовским моделям и строить эквивалентные ARTM-модели.
Тематические модели сочетаемости слов
Презентация: (PDF, 1,7 МБ) — обновление 21.10.2021. Видеозапись
Мультиграммные модели.
- Модель BigramTM.
- Модель Topical N-grams (TNG).
- Мультимодальная мультиграммная модель.
Автоматическое выделение терминов.
- Алгоритм TopMine для быстрого поиска частых фраз. Критерии выделения коллокаций.
- Синтаксический разбор. Нейросетевой синтаксический анализатор SyntaxNet.
- Критерии тематичности фраз.
- Комбинирование синтаксической, статистической и тематической фильтрации фраз.
Тематические модели дистрибутивной семантики.
- Дистрибутивная гипотеза. Модели CBOW и SGNS в программе word2vec.
- Модель битермов BTM (Biterm Topic Model) для тематизации коллекций коротких текстов.
- Модели WNTM (Word Network Topic Model) и WTM (Word Topic Model). Связь с моделью word2vec.
- Регуляризаторы когерентности.
Дополнительный материал:
- Потапенко А. А. Векторные представления слов и документов. DataFest'4. Видео.
Анализ зависимостей
Презентация: (PDF, 1,7 МБ) — обновление 18.09.2021. Видеозапись
Зависимости, корреляции, связи.
- Тематические модели классификации и регрессии.
- Модель коррелированных тем CTM (Correlated Topic Model).
- Регуляризаторы гиперссылок и цитирования. Выявление тематических влияний в научных публикациях.
Время и пространство.
- Регуляризаторы времени.
- Обнаружение и отслеживание тем.
- Гео-пространственные модели.
Социальные сети.
- Сфокусированный поиск в социальных медиа (пример: поиск этно-релевантного контента).
- Выявление тематических сообществ. Регуляризаторы для направленных и ненаправленных связей.
- Регуляризаторы для выявления социальных ролей пользователей.
Мультимодальные тематические модели
Презентация: (PDF, 2,7 МБ) — обновление 18.09.2021. Видеозапись
Мультиязычные тематические модели.
- Параллельные и сравнимые коллекции.
- Регуляризаторы для учёта двуязычных словарей.
- Кросс-язычный информационный поиск.
Трёхматричные модели.
- Модели трёхматричных разложений. Понятие порождающей модальности.
- Автор-тематическая модель (author-topic model).
- Модель для выделения поведений объектов в видеопотоке.
Тематические модели транзакционных данных.
- Примеры транзакционных данных в рекомендательных системах, социальных и рекламных сетях.
- Гиперграфовая модель ARTM. Теорема о необходимом условии максимума регуляризованного правдоподобия.
- Транзакционные данные в рекомендательных системах. Симметризованная гиперграфовая модель ARTM.
- Тематическая модель предложений и модель коротких сообщений Twitter-LDA.
- Анализ транзакционных данных для выявления паттернов экономического поведения клиентов банка. Видео.
- Анализ банковских транзакционных данных для выявления видов деятельности компаний.
Моделирование локального контекста
Презентация: (PDF, 2,5 МБ) — обновление 18.09.2021. Видеозапись
Тематическая сегментация.
- Метод TopicTiling. Критерии определения границ сегментов.
- Критерии качества сегментации.
- Оптимизация параметров модели TopicTiling.
Позиционный регуляризатор в ARTM.
- Гипотеза о сегментной структуре текста.
- Регуляризация и пост-обработка Е-шага. Формулы М-шага.
- Примеры регуляризаторов Е-шага. Разреживание распределения p(t|d,w). Сглаживание тематики слов по контексту.
Тематическое моделирование связного текста
- Тематизация фрагментов текста для суммаризации и именования тем.
- Тематическое моделирование без матрицы .
- Двунаправленная тематическая модель контекста.
Суммаризация и визуализация
Презентация: (PDF, 3,0 МБ) — обновление 25.11.2020. Видеозапись
Презентация: (PDF, 10,1 МБ) — обновление 11.01.2021. Видеозапись
Методы суммаризации текстов.
- Задачи автоматической суммаризации текстов. Подходы к суммаризации: extractive и abstractive.
- Оценивание и отбор предложений для суммаризации. Релаксационный метод для многокритериальной дискретной оптимизации.
- Тематическая модель предложений для суммаризации.
- Критерии качества суммаризации. Метрики ROUGE, BLUE.
Автоматическое именование тем (topic labeling).
- Формирование названий-кандидатов.
- Релевантность, покрытие, различность.
- Оценивание качества именования тем.
Визуализация тематических моделей
- Концепция distant reading.
- Визуализация для научного разведочного поиска. Тематическая карта.
- Спектр тем.
- Карты знаний, иерархии, взаимосвязи, динамика, сегментация.
- Визуализация матричного разложения.
Отчетность по курсу
Условием сдачи курса является выполнение индивидуальных практических заданий.
Рекомендуемая структура отчёта об исследовании по индивидуальному заданию:
- Постановка задачи: неформальное описание, ДНК (дано–найти–критерий), структура данных
- Описание простого решения baseline
- Описание основного решения и его вариантов
- Описание набора данных и методики экспериментов
- Результаты экспериментов по подбору гиперпараметров основного решения
- Результаты экспериментов по сравнению основного решения с baseline
- Примеры визуализации модели
- Выводы: что работает, что не работает, инсайты
- Ссылка на код
Примеры отчётов:
Литература
- Воронцов К. В. Обзор вероятностных тематических моделей. 2021.
- Hamed Jelodar, Yongli Wang, Chi Yuan, Xia Feng. Latent Dirichlet Allocation (LDA) and Topic modeling: models, applications, a survey. 2017.
- Hofmann T. Probabilistic latent semantic indexing // Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval. — New York, NY, USA: ACM, 1999. — Pp. 50–57.
- Blei D. M., Ng A. Y., Jordan M. I. Latent Dirichlet allocation // Journal of Machine Learning Research. — 2003. — Vol. 3. — Pp. 993–1022.
- Asuncion A., Welling M., Smyth P., Teh Y. W. On smoothing and inference for topic models // Proceedings of the International Conference on Uncertainty in Artificial Intelligence. — 2009.
Ссылки
- Тематическое моделирование
- Аддитивная регуляризация тематических моделей
- Коллекции документов для тематического моделирования
- BigARTM
- Видеозапись лекции на ТМШ, 19 июня 2015
- Воронцов К.В. Практическое задание по тематическому моделированию, 2014.
Материалы для первого ознакомления:
- Тематический анализ больших данных. Краткое популярное введение в BigARTM.
- Разведочный информационный поиск. Видеолекция на ПостНауке.
- Тематическое моделирование. FAQ на ПостНауке, совместно с Корпоративным университетом Сбербанка.
- Байесовская и классическая регуляризация в вероятностном тематическом моделировании. Научно-образовательный семинар «Актуальные проблемы прикладной математики» Новосибирского Государственного Университета, 19 февраля 2021. Презентация.
- Тематическое моделирование на пути к разведочному информационному поиску. Лекция на DataFest3, 10 сентября 2016. Видеозапись.