Вероятностные тематические модели (курс лекций, К.В.Воронцов)

Материал из MachineLearning.

Перейти к: навигация, поиск

Содержание

Спецкурс читается студентам 2—5 курсов на кафедре «Математические методы прогнозирования» ВМиК МГУ с 2013 года.

В спецкурсе изучается вероятностное тематическое моделирование (topic modeling) коллекций текстовых документов. Тематическое моделирование рассматривается как ключевая математическая технология перспективных информационно-поисковых систем нового поколения, основанных на парадигме семантического разведочного поиска (exploratory search). Рассматриваются также прикладные задачи классификации, сегментации и суммаризации текстов, задачи анализа данных социальных сетей и рекомендательных систем. Развивается многокритериальный подход к построению композитных тематических моделей с заданными свойствами — аддитивная регуляризация тематических моделей (АРТМ). Он основан на регуляризации некорректно поставленных задач стохастического матричного разложения. Рассматриваются способы измерения и оптимизации важнейших свойств тематических моделей — правдоподобия, интерпретируемости, устойчивости, полноты. Рассматриваются задачи анализа и классификации символьных последовательностей неязыковой природы, в частности, аминокислотных и нуклеотидных последовательностей, дискретизированных биомедицинских сигналов. Предполагается проведение студентами численных экспериментов на модельных и реальных данных с помощью библиотеки тематического моделирования BigARTM.

От студентов требуются знания курсов линейной алгебры, математического анализа, теории вероятностей. Знание математической статистики, методов оптимизации, машинного обучения, языков программирования Python и С++ желательно, но не обязательно.

Обзорная презентация: (PDF, 4,4 МБ) — обновление 14.03.2016.
Видеолекция на ПостНауке: Разведочный информационный поиск.

Программа курса

Условием сдачи спецкурса является выполнение индивидуальных практических заданий.

Введение

Презентация: (PDF, 0,6 МБ) — обновление 11.02.2017.

Цели и задачи тематического моделирования.

  • Понятие «темы», цели и задачи тематического моделирования (topic modeling).
  • Основные предположения. Гипотеза «мешка слов» (bag-of-words). Методы предварительной обработки текстов.
  • Вероятностное пространство. Тема как латентная (ненаблюдаемая) переменная. Гипотеза условной независимости.
  • Порождающая модель документа как вероятностной смеси тем.
  • Постановка обратной задачи восстановления параметров модели по данным.

Математический инструментарий.

Тематическая модель PLSA.

  • Вероятностный латентный семантический анализ (probabilistic latent semantic analysis, PLSA).
  • Теорема о необходимых условиях максимума правдоподобия для модели PLSA.
  • EM-алгоритм и его элементарная интерпретация. Формула Байеса и частотные оценки условных вероятностей.
  • Рациональный ЕМ-алгоритм (встраивание Е-шага внутрь М-шага).

Обзор базовых инструментов

Александр Романенко. Презентация: (zip, 0,6 МБ) — обновление 17.02.2017.

Предварительная обработка текстов

  • Парсинг "сырых" данных.
  • Токенизация, стемминг и лемматизация.
  • Выделение энграмм.
  • Законы Ципфа и Хипса. Фильтрация словаря коллекции. Удаление стоп-слов.

Библиотека BigARTM

  • Методологические рекоммендации по проведению экспериментов.
  • Установка BigARTM.
  • Формат и импорт входных данных.
  • Обучение простой модели (без регуляризации): создание, инициализация, настройка и оценивание модели.
  • Инструмент визуализации тематических моделей VisARTM. Основные возможности, демонстрация работы.

Аддитивная регуляризация тематических моделей

Презентация: (PDF, 2,5 МБ) — обновление 10.03.2017.

Регуляризаторы и модальности.

  • Аддитивная регуляризация тематических моделей. Линейные композиции регуляризаторов.
  • Теорема о необходимом условии максимума регуляризованного правдоподобия для ARTM.
  • Мультимодальная ARTM. Виды модальностей и примеры прикладных задач.
  • Оффлайновый регуляризованный EM-алгоритм.
  • Онлайновый регуляризованный EM-алгоритм. Распараллеливание.

Модель LDA.

Проекты, задания, открытые проблемы

  • Прикладные проекты по тематическому моделированию
  • Примеры заданий по спецкурсу
  • Исследовательские задачи и открытые проблемы

Дополнительный материал:

Сглаживание, разреживание и декоррелирование тем

Презентация: (PDF, 1,3 МБ) — обновление 10.03.2017.

Эксперименты по устойчивости.

  • Эксперименты на синтетических данных: демонстрация неустойчивости PLSA и LDA.
  • Эксперименты по неустойчивости LDA на текстовых коллекциях социальных сетей.

Регуляризаторы разреживания, сглаживания, декоррелирования и отбора тем.

  • Регуляризаторы сглаживания и разреживания.
  • Частичное обучение как разновидность сглаживания.
  • Разделение тем на предметные и фоновые. Автоматическое выделение слов общей лексики.
  • Регуляризатор декоррелирования тем.
  • Разреживающий регуляризатор отбора тем.
  • Эксперименты с композициями разреживания, сглаживания, декоррелирования и отбора тем.
  • Критерии качества тематических моделей: перплексия, когерентность, чистота и контрастность тем.

Исследование регуляризатора отбора тем.

  • Эксперименты с полусинтетическими данными.
  • Эффект отбрасывания малых, дублирующих и линейно зависимых тем.
  • Сравнение с байесовской моделью HDP (Hierarchical Dirichlet Process).

Регуляризация тематических моделей в BigARTM

Мурат Апишев. Презентация: (PDF, 1,5 МБ) — обновление 17.03.2017. Видео — обновление 22.03.2017.

Напоминания.

  • Задача ТМ, аддитивная регуляризация, мультимодальные модели.
  • Библиотека BigARTM.

Эксперименты в BigARTM.

  • Стратегии регуляризации.
  • Возможности и стратегии использования регуляризаторов сглаживания/разреживания и декорреляции тем.
  • Рекомендации по подбору параметров при построении моделей.
  • Практические советы и оценивание моделей.

Применение АРТМ для решения реальной прикладной задачи.

  • Работа с реальными данными социальных сетей.
  • Настройка моделей с несколькими регуляризаторами и модальностями.

Дополнительный материал:

  • Александр Романенко. Воркшоп по BigARTM на DataFest'4. Видео.

Байесовское обучение тематических моделей

Презентация: (PDF, 1,3 МБ) — обновление 24.03.2017.

EM-алгоритм.

  • Задачи оценивания скрытых параметров вероятностной модели.
  • EM-алгоритм для максимизации неполного правдоподобия. Сходимость в слабом смысле.
  • EM-алгоритм для модели PLSA.
  • EM-алгоритм с регуляризацией.

Методы оценивания параметров в модели LDA.

Языки описания вероятностных порождающих моделей.

  • Графическая плоская нотация (plate notation). Stop using plate notation.
  • Псевдокод порождающего процесса (genarative story).
  • Постановки оптимизационных задач.
  • Как читать статьи по баейсовским моделям и строить эквивалентные ARTM-модели.

Дополнительный материал:

Тематические модели для анализа зависимостей

Презентация: (PDF, 1,9 МБ) — обновление 31.03.2017.

Классификация и регрессия.

Связи и корреляции.

  • Модель коррелированных тем CTM (Correlated Topic Model).
  • Регуляризаторы гиперссылок и цитирования. Выявление тематических влияний в научных публикациях.

Время и пространство.

  • Регуляризаторы времени для темпоральных тематических моделей. Разреживание тем в каждый момент времени. Сглаживание темы как временного ряда. Пример: анализ коллекции пресс-релизов.
  • Регуляризаторы геолокации для пространственных тематических моделей.

Социальные сети.

  • Выявление тематических сообществ. Регуляризаторы для направленных и ненаправленных связей.
  • Регуляризаторы для выявления социальных ролей пользователей.

Мультимодальные тематические модели

Презентация: (PDF, 1,9 МБ) — обновление 07.04.2017.

Мультиязычные тематические модели.

  • Параллельные и сравнимые коллекции.
  • Регуляризаторы для учёта двуязычных словарей.
  • Кросс-язычный информационный поиск.

Иерархические модели.

  • Иерархические модели. Регуляризаторы для построения иерархий.
  • Оценивание качества и визуализация тематических иерархий.

Трёхматричные и гиперграфовые модели.

  • Модели трёхматричных разложений. Понятие порождающей модальности.
  • Автор-тематическая модель (author-topic model).
  • Примеры транзакционных данных в рекомендательных системах, социальных и рекламных сетях.
  • Теорема о необходимом условии максимума регуляризованного правдоподобия для гиперграфовой ARTM.

Тематические модели совстречаемости слов

Презентация: (PDF, 1,6 МБ) — обновление 15.04.2017.

Мультиграммные модели.

  • Модель BigramTM.
  • Модель Topical N-grams (TNG).
  • Мультимодальная мультиграммная модель.

Автоматическое выделение терминов.

  • Алгоритм TopMine для быстрого поиска частых фраз. Критерии выделения коллокаций.
  • Синтаксический разбор. Нейросетевой синтаксический анализатор SyntaxNet.
  • Критерии тематичности фраз.

Тематические модели дистрибутивной семантики.

  • Дистрибутивная гипотеза.
  • Модель битермов BTM (Biterm Topic Model) для тематизации коллекций коротких текстов.
  • Модели WNTM (Word Network Topic Model) и WTM (Word Topic Model). Связь с моделью word2vec.
  • Понятие когерентности (согласованности). Экспериментально установленная связь когерентности и интерпретируемости.
  • Регуляризаторы когерентности.

Дополнительный материал:

  • Потапенко А. А. Векторные представления слов и документов. DataFest'4. Видео.

Тематическая сегментация и суммаризация

Презентация: (PDF, 2,0 МБ) — обновление 05.05.2017.

Модели связного текста.

  • Тематическая модель предложений и модель коротких сообщений Twitter-LDA.
  • Контекстная документная кластеризация (CDC).
  • Метод лексических цепочек.

Тематическая сегментация.

  • Метод TopicTiling. Критерии определения границ сегментов.
  • Критерии качества сегментации. Оптимизация параметров модели TopicTiling.

Методы суммаризации текстов.

  • Автоматическая суммаризация текстов: задачи и подходы.
  • Релаксационный метод для многокритериальной дискретной оптимизации.
  • Тематическая модель предложений для суммаризации.
  • Семейство критериев качества суммаризации ROUGE.

Примеры приложений тематического моделирования

Презентация: (PDF, 3,3 МБ) — обновление 16.05.2017.


Литература

Основная литература

  1. Воронцов К.В. Тематическое моделирование в BigARTM: теория, алгоритмы, приложения. Voron-2015-BigARTM.pdf.
  2. Воронцов К.В. Лекции по тематическому моделированию. Voron-2013-ptm.pdf.
  3. Vorontsov K. V., Potapenko A. A. Additive Regularization of Topic Models // Machine Learning. Special Issue “Data Analysis and Intelligent Optimization with Applications”: Volume 101, Issue 1 (2015), Pp. 303-323. Русский перевод

Дополнительная литература

  1. Воронцов К. В., Потапенко А. А. Модификации EM-алгоритма для вероятностного тематического моделирования // Машинное обучение и анализ данных. — 2013. — T. 1, № 6. — С. 657–686.
  2. Воронцов К. В., Фрей А. И., Ромов П. А., Янина А. О., Суворова М. А., Апишев М. А. BigARTM: библиотека с открытым кодом для тематического моделирования больших текстовых коллекций // Аналитика и управление данными в областях с интенсивным использованием данных. XVII Международная конференция DAMDID/RCDL’2015, Обнинск, 13-16 октября 2015.
  3. Маннинг К., Рагхаван П., Шютце Х. Введение в информационный поиск. — Вильямс, 2011.
  4. Asuncion A., Welling M., Smyth P., Teh Y. W. On smoothing and inference for topic models // Proceedings of the International Conference on Uncertainty in Artificial Intelligence. — 2009.
  5. Blei D. M., Ng A. Y., Jordan M. I. Latent Dirichlet allocation // Journal of Machine Learning Research. — 2003. — Vol. 3. — Pp. 993–1022.
  6. Chemudugunta C., Smyth P., Steyvers M. Modeling general and specific aspects of documents with a probabilistic topic model // Advances in Neural Information Processing Systems. — MIT Press, 2006. — Vol. 19. — Pp. 241–248.
  7. Daud A., Li J., Zhou L., Muhammad F. Knowledge discovery through directed probabilistic topic models: a survey // Frontiers of Computer Science in China.— 2010.— Vol. 4, no. 2. — Pp. 280–301.
  8. Dempster A. P., Laird N. M., Rubin D. B. Maximum likelihood from incomplete data via the EM algorithm // J. of the Royal Statistical Society, Series B. — 1977. — no. 34. — Pp. 1–38.
  9. Hofmann T. Probabilistic latent semantic indexing // Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval. — New York, NY, USA: ACM, 1999. — Pp. 50–57.
  10. Hoffman M. D., Blei D. M., Bach F. R. Online Learning for Latent Dirichlet Allocation // NIPS, 2010. Pp. 856–864.
  11. Lu Y., Mei Q., Zhai C. Investigating task performance of probabilistic topic models: an empirical study of PLSA and LDA // Information Retrieval. — 2011. — Vol.14, no.2. — Pp. 178–203.
  12. Vorontsov K. V., Frei O. I., Apishev M. A., Romov P. A., Suvorova M. A., Yanina A. O. Non-Bayesian Additive Regularization for Multimodal Topic Modeling of Large Collections // Proceedings of the 2015 Workshop on Topic Models: Post-Processing and Applications, October 19, 2015, Melbourne, Australia. ACM, New York, NY, USA. pp. 29–37.
  13. Wallach H., Mimno D., McCallum A. Rethinking LDA: Why priors matter // Advances in Neural Information Processing Systems 22 / Ed. by Y. Bengio, D. Schuurmans, J. Lafferty, C. K. I. Williams, A. Culotta. — 2009. — Pp. 1973–1981.

Ссылки

Подстраницы

Вероятностные тематические модели (курс лекций, К.В.Воронцов)/2015Вероятностные тематические модели (курс лекций, К.В.Воронцов)/2016Вероятностные тематические модели (курс лекций, К.В.Воронцов)/2017
Вероятностные тематические модели (курс лекций, К.В.Воронцов)/2018Вероятностные тематические модели (курс лекций, К.В.Воронцов)/2019, ВМКВероятностные тематические модели (курс лекций, К.В.Воронцов)/2020
Вероятностные тематические модели (курс лекций, К.В.Воронцов)/2021