Вероятностные тематические модели (курс лекций, К.В.Воронцов)
Материал из MachineLearning.
Спецкурс читается студентам 2—5 курсов на кафедре «Математические методы прогнозирования» ВМиК МГУ с 2013 года.
В спецкурсе изучается вероятностное тематическое моделирование (topic modeling) коллекций текстовых документов. Тематическое моделирование рассматривается как ключевая математическая технология перспективных информационно-поисковых систем нового поколения, основанных на парадигме семантического разведочного поиска (exploratory search). Рассматриваются также прикладные задачи классификации, сегментации и суммаризации текстов, задачи анализа данных социальных сетей и рекомендательных систем. Развивается многокритериальный подход к построению композитных тематических моделей с заданными свойствами — аддитивная регуляризация тематических моделей (АРТМ). Он основан на регуляризации некорректно поставленных задач стохастического матричного разложения. Рассматриваются способы измерения и оптимизации важнейших свойств тематических моделей — правдоподобия, интерпретируемости, устойчивости, полноты. Рассматриваются задачи анализа и классификации символьных последовательностей неязыковой природы, в частности, аминокислотных и нуклеотидных последовательностей, дискретизированных биомедицинских сигналов. Предполагается проведение студентами численных экспериментов на модельных и реальных данных с помощью библиотеки тематического моделирования BigARTM.
От студентов требуются знания курсов линейной алгебры, математического анализа, теории вероятностей. Знание математической статистики, методов оптимизации, машинного обучения, языков программирования Python и С++ желательно, но не обязательно.
Материалы для первого ознакомления:
- Обзорная презентация: (PDF, 4,4 МБ) — обновление 14.03.2016.
- Видеолекция на ПостНауке: Разведочный информационный поиск.
Основной материал:
- Обзор вероятностных тематических моделей — обновление 01.04.2018.
Краткая ссылка на эту страницу: bit.ly/2EGWcjA.
Программа курса
Условием сдачи спецкурса является выполнение индивидуальных практических заданий.
Введение
Презентация: (PDF, 1,2 МБ) — обновление 15.02.2018.
Цели и задачи тематического моделирования.
- Понятие «темы», цели и задачи тематического моделирования.
- Основные предположения. Гипотеза «мешка слов» (bag-of-words). Методы предварительной обработки текстов.
- Вероятностное пространство. Тема как латентная (ненаблюдаемая) переменная. Гипотеза условной независимости.
- Порождающая модель документа как вероятностной смеси тем.
- Упрощённая вероятностная модель текста и элементарное решение обратной задачи
- Постановка обратной задачи восстановления параметров модели по данным.
Математический инструментарий.
- Принцип максимума правдоподобия.
- Условия Каруша–Куна–Таккера.
- Униграммные модели коллекции и документа.
Аддитивная регуляризация тематических моделей.
- Теорема о необходимом условии максимума регуляризованного правдоподобия для ARTM.
- EM-алгоритм и его элементарная интерпретация. Формула Байеса и частотные оценки условных вероятностей.
- Вероятностный латентный семантический анализ (probabilistic latent semantic analysis, PLSA).
- Рациональный ЕМ-алгоритм (встраивание Е-шага внутрь М-шага). Оффлайновый регуляризованный EM-алгоритм.
- Онлайновый регуляризованный EM-алгоритм. Распараллеливание.
- Библиотека BigARTM.
Обзор базовых инструментов
Александр Романенко, Мурат Апишев. Презентация: (zip, 0,6 МБ) — обновление 17.02.2017.
Предварительная обработка текстов
- Парсинг "сырых" данных.
- Токенизация, стемминг и лемматизация.
- Выделение энграмм.
- Законы Ципфа и Хипса. Фильтрация словаря коллекции. Удаление стоп-слов.
Библиотека BigARTM
- Методологические рекоммендации по проведению экспериментов.
- Установка BigARTM.
- Формат и импорт входных данных.
- Обучение простой модели (без регуляризации): создание, инициализация, настройка и оценивание модели.
- Инструмент визуализации тематических моделей VisARTM. Основные возможности, демонстрация работы.
Дополнительный материал:
- Презентация: (PDF, 1,5 МБ) — обновление 17.03.2017.
- Видео — обновление 22.03.2017.
- Воркшоп по BigARTM на DataFest'4. Видео.
Аддитивная регуляризация тематических моделей
Презентация: (PDF, 3,1 МБ) — обновление 15.03.2018.
Теория ARTM
- Мультимодальные тематические модели
- Регуляризаторы сглаживания и разреживания
- Разделение тем на предметные и фоновые
Время и пространство
- Регуляризаторы времени
- Эксперименты на коллекции пресс-релизов
- Гео-пространственные модели
Иерархические тематические модели
- Нисходящая послойная стратегия
- Оценивание качества тематических иерархий
- Визуализация иерархии
Разведочный информационный поиск
Презентация: (PDF, 4,5 МБ) — обновление 15.03.2018.
Разведочный информационный поиск
- Концепция разведочного поиска
- Визуализация больших текстовых коллекций
- Сценарий разведочного поиска
Эксперименты с тематическим поиском
- Методика эксперимента
- Построение тематической модели
- Оптимизация гиперпараметров
Эксперименты с тематическими моделями
- Измерение качества тематической модели
- Многокритериальное оценивание качества модели
- Определение числа тем и регуляризатор отбора тем
Дополнительный материал:
- Разведочный информационный поиск (exploratory search). Видео.
Мультимодальные тематические модели
Презентация: (PDF, 1,4 МБ) — обновление 22.03.2018.
Мультиязычные тематические модели.
- Параллельные и сравнимые коллекции.
- Регуляризаторы для учёта двуязычных словарей.
- Кросс-язычный информационный поиск.
Зависимости, корреляции, связи.
- Тематические модели классификации и регрессии.
- Модель коррелированных тем CTM (Correlated Topic Model).
- Регуляризаторы гиперссылок и цитирования. Выявление тематических влияний в научных публикациях.
Социальные сети.
- Выявление тематических сообществ. Регуляризаторы для направленных и ненаправленных связей.
- Регуляризаторы для выявления социальных ролей пользователей.
Тематические модели совстречаемости слов
Презентация: (PDF, 1,9 МБ) — обновление 29.03.2018.
Мультиграммные модели.
- Модель BigramTM.
- Модель Topical N-grams (TNG).
- Мультимодальная мультиграммная модель.
Автоматическое выделение терминов.
- Алгоритм TopMine для быстрого поиска частых фраз. Критерии выделения коллокаций.
- Синтаксический разбор. Нейросетевой синтаксический анализатор SyntaxNet.
- Критерии тематичности фраз.
- Комбинирование синтаксической, статистической и тематической фильтрации фраз.
Тематические модели дистрибутивной семантики.
- Дистрибутивная гипотеза. Модели CBOW и SGNS в программе word2vec.
- Модель битермов BTM (Biterm Topic Model) для тематизации коллекций коротких текстов.
- Модели WNTM (Word Network Topic Model) и WTM (Word Topic Model). Связь с моделью word2vec.
- Понятие когерентности (согласованности). Экспериментально установленная связь когерентности и интерпретируемости.
- Регуляризаторы когерентности.
Дополнительный материал:
- Потапенко А. А. Векторные представления слов и документов. DataFest'4. Видео.
Байесовское обучение тематических моделей
Презентация: (PDF, 1,5 МБ) — обновление 13.04.2018.
EM-алгоритм.
- Задачи оценивания скрытых параметров вероятностной модели.
- EM-алгоритм для максимизации неполного правдоподобия. Сходимость в слабом смысле.
- EM-алгоритм для модели PLSA.
- EM-алгоритм с регуляризацией.
Методы оценивания параметров в модели LDA.
- Распределение Дирихле и его свойства. Сопряжённость с мультиномиальным распределением.
- Максимизация апостериорной вероятности для модели LDA.
- Вариационный байесовский вывод для модели LDA.
- Сэмплирование Гиббса для модели LDA.
- Оптимизация гиперпараметров распределения Дирихле.
Языки описания вероятностных порождающих моделей.
- Графическая плоская нотация (plate notation). Stop using plate notation.
- Псевдокод порождающего процесса (genarative story).
- Постановки оптимизационных задач.
- Как читать статьи по баейсовским моделям и строить эквивалентные ARTM-модели.
Дополнительный материал:
- Потапенко А. А. Байесовское обучение тематических моделей. 2016.
Тематическая сегментация
Презентация: (PDF, 2,0 МБ) — обновление 16.04.2018.
Модели связного текста.
- Тематическая модель предложений и модель коротких сообщений Twitter-LDA.
- Контекстная документная кластеризация (CDC).
- Метод лексических цепочек.
Тематическая сегментация.
- Метод TopicTiling. Критерии определения границ сегментов.
- Критерии качества сегментации. Оптимизация параметров модели TopicTiling.
Позиционный регуляризатор в ARTM.
- Гипотеза о сегментной структуре текста.
- Регуляризация и пост-обработка Е-шага. Формулы М-шага.
- Примеры регуляризаторов Е-шага. Разреживание распределения p(t|d,w). Сглаживание тематики слов по контексту.
Визуализация и суммаризация тем
Презентация: (PDF, 6,7 МБ) — обновление 01.05.2018.
Средства визуализации тематических моделей.
- Минимальные средства визуализации.
- Визуализация кластерных структур.
- Визуализация темпоральных, иерархических, сегментирующих моделей.
Визуализатор VisARTM.
- Проект VisARTM.
- Обзор средств визуализации VisARTM.
- Задача построения тематического спектра.
Методы суммаризации текстов.
- Задачи автоматической суммаризации текстов. Подходы к суммаризации: extractive и abstractive.
- Оценивание и отбор предложений для суммаризации. Релаксационный метод для многокритериальной дискретной оптимизации.
- Тематическая модель предложений для суммаризации.
- Критерии качества суммаризации ROUGE.
Анализ разнородных данных
Презентация: (PDF, 1,6 МБ) — обновление 03.05.2018.
Трёхматричные и гиперграфовые модели.
- Модели трёхматричных разложений. Понятие порождающей модальности.
- Автор-тематическая модель (author-topic model).
- Модель для выделения поведений объектов в видеопотоке.
Тематические модели транзакционных данных.
- Примеры транзакционных данных в рекомендательных системах, социальных и рекламных сетях.
- Гиперграфовая модель ARTM. Теорема о необходимом условии максимума регуляризованного правдоподобия.
- Анализ транзакционных данных для выявления паттернов экономического поведения клиентов банка. Видео.
- Анализ банковских транзакционных данных для выявления видов деятельности компаний.
Определение числа тем.
- Регуляризатор отбора тем.
- Эффект отбрасывания малых, дублирующих и линейно зависимых тем.
- Сравнение с байесовской моделью HDP (Hierarchical Dirichlet Process).
Автоматическое именование тем (topic labeling).
- Формирование названий-кандидатов.
- Максимизация релевантности, покрытия и различности.
Литература
- Воронцов К. В. Обзор вероятностных тематических моделей. — обновление 31.07.2017.
- Hamed Jelodar, Yongli Wang, Chi Yuan, Xia Feng. Latent Dirichlet Allocation (LDA) and Topic modeling: models, applications, a survey. 2017.
- Hofmann T. Probabilistic latent semantic indexing // Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval. — New York, NY, USA: ACM, 1999. — Pp. 50–57.
- Blei D. M., Ng A. Y., Jordan M. I. Latent Dirichlet allocation // Journal of Machine Learning Research. — 2003. — Vol. 3. — Pp. 993–1022.
- Asuncion A., Welling M., Smyth P., Teh Y. W. On smoothing and inference for topic models // Proceedings of the International Conference on Uncertainty in Artificial Intelligence. — 2009.
- Янина А. О., Воронцов К. В. Мультимодальные тематические модели для разведочного поиска в коллективном блоге // Машинное обучение и анализ данных. 2016. T.2. №2. С.173-186.
Ссылки
- Тематическое моделирование
- Аддитивная регуляризация тематических моделей
- Коллекции документов для тематического моделирования
- BigARTM
- Видеозапись лекции на ТМШ, 19 июня 2015
- Воронцов К.В. Практическое задание по тематическому моделированию, 2014.
Подстраницы
Вероятностные тематические модели (курс лекций, К.В.Воронцов)/2015 | Вероятностные тематические модели (курс лекций, К.В.Воронцов)/2016 | Вероятностные тематические модели (курс лекций, К.В.Воронцов)/2017 |
Вероятностные тематические модели (курс лекций, К.В.Воронцов)/2018 | Вероятностные тематические модели (курс лекций, К.В.Воронцов)/2019, ВМК | Вероятностные тематические модели (курс лекций, К.В.Воронцов)/2020 |
Вероятностные тематические модели (курс лекций, К.В.Воронцов)/2021 |