Вероятностные тематические модели (курс лекций, К.В.Воронцов)/2019, ВМК

Материал из MachineLearning.

Перейти к: навигация, поиск

Содержание

Программа спецкурса, прочитанного весной 2019 года студентам 2—5 курсов на кафедре «Математические методы прогнозирования» ВМиК МГУ.

Программа курса

Введение

Презентация: (PDF, 1,7 МБ) — обновление 14.02.2019.

Цели и задачи тематического моделирования.

Аддитивная регуляризация тематических моделей.

  • Понятие некорректно поставленной задачи по Адамару. Регуляризация.
  • Теорема о необходимом условии максимума регуляризованного правдоподобия для ARTM. Условия Каруша–Куна–Таккера.
  • Классические тематические модели PLSA и LDA как частные случаи ARTM.
  • Мультимодальные тематические модели.

Библиотека BigARTM.

  • Рациональный ЕМ-алгоритм (встраивание Е-шага внутрь М-шага).
  • Оффлайновый регуляризованный EM-алгоритм.
  • Онлайновый регуляризованный EM-алгоритм. Распараллеливание.
  • Проект с открытым кодом BigARTM.

Аддитивная регуляризация тематических моделей

Презентация: (PDF, 1,6 МБ) — обновление 14.02.2019.

Часто используемые регуляризаторы.

  • Регуляризаторы сглаживания и разреживания.
  • Регуляризатор декоррелирования.
  • Регуляризатор отбора тем.

Внутренние метрики качества модели.

  • Правдоподобие и перплексия.
  • Интерпретируемость и когерентность.
  • Разреженность и различность.

Эксперименты с регуляризаторами.

  • Сглаживание, разреживание, декоррелирование.
  • Существует ли оптимальное число тем?
  • Семантическая однородность тем.

Обзор базовых инструментов

Александр Романенко, Мурат Апишев. Презентация: (zip, 0,6 МБ) — обновление 17.02.2017.

Предварительная обработка текстов

  • Парсинг "сырых" данных.
  • Токенизация, стемминг и лемматизация.
  • Выделение энграмм.
  • Законы Ципфа и Хипса. Фильтрация словаря коллекции. Удаление стоп-слов.

Библиотека BigARTM

  • Методологические рекоммендации по проведению экспериментов.
  • Установка BigARTM.
  • Формат и импорт входных данных.
  • Обучение простой модели (без регуляризации): создание, инициализация, настройка и оценивание модели.
  • Инструмент визуализации тематических моделей VisARTM. Основные возможности, демонстрация работы.

Дополнительный материал:

  • Презентация: (PDF, 1,5 МБ) — обновление 17.03.2017.
  • Видео — обновление 22.03.2017.
  • Воркшоп по BigARTM на DataFest'4. Видео.

Тематические иерархии и разведочный информационный поиск

Презентация: (PDF, 4,5 МБ) — обновление 21.03.2019.

Разведочный информационный поиск

  • Концепция разведочного поиска.
  • Концепция distant reading и идеи визуализации.
  • Сценарии использования разведочного поиска.

Иерархические тематические модели.

  • Визуализация тематических иерархий.
  • Метод нисходящего послойного построения иерархии.
  • Спектр тем.

Эксперименты с тематическим поиском.

  • Методика измерения качества поиска.
  • Тематическая модель для документного поиска.
  • Оптимизация гиперпараметров.

Модель LDA и ЕМ-алгоритм

Презентация: (PDF, 1,5 МБ) — обновление 21.03.2019.

Классические модели PLSA, LDA.

  • Модель PLSA.
  • Модель LDA. Максимизация апостериорной вероятности для модели LDA.
  • Начала байесовского подхода. Распределение Дирихле и его свойства. Сопряжённость с мультиномиальным распределением.

Общий EM-алгоритм.

  • EM-алгоритм для максимизации неполного правдоподобия. Сходимость в слабом смысле.
  • Регуляризованный EM-алгоритм.
  • Альтернативный вывод формул ARTM.

Эксперименты с PLSA и LDA.

  • Неустойчивость на синтетических данных.
  • Неустойчивость на реальных данных.
  • Переобучение и робастность.

Байесовское обучение тематических моделей

Презентация: (PDF, 1,5 МБ) — обновление 21.03.2019.

Вариационный байесовский вывод.

Сэмплирование Гиббса.

Замечания о байесовском подходе.

  • Оптимизация гиперпараметров в LDA.
  • Графическая нотация (plate notation). Stop using plate notation.
  • Сравнение байесовского подхода и ARTM.
  • Как читать статьи по баейсовским моделям и строить эквивалентные ARTM-модели.

Дополнительный материал:

Мультимодальные тематические модели

Презентация: (PDF, 1,4 МБ) — обновление 28.03.2019.

Мультиязычные тематические модели.

  • Параллельные и сравнимые коллекции.
  • Регуляризаторы для учёта двуязычных словарей.
  • Кросс-язычный информационный поиск.

Трёхматричные и гиперграфовые модели.

  • Модели трёхматричных разложений. Понятие порождающей модальности.
  • Автор-тематическая модель (author-topic model).
  • Модель для выделения поведений объектов в видеопотоке.

Тематические модели транзакционных данных.

  • Примеры транзакционных данных в рекомендательных системах, социальных и рекламных сетях.
  • Гиперграфовая модель ARTM. Теорема о необходимом условии максимума регуляризованного правдоподобия.
  • Анализ транзакционных данных для выявления паттернов экономического поведения клиентов банка. Видео.
  • Анализ банковских транзакционных данных для выявления видов деятельности компаний.

Тематические модели совстречаемости слов

Презентация: (PDF, 1,9 МБ) — обновление 13.04.2019.

Мультиграммные модели.

  • Модель BigramTM.
  • Модель Topical N-grams (TNG).
  • Мультимодальная мультиграммная модель.

Автоматическое выделение терминов.

  • Алгоритм TopMine для быстрого поиска частых фраз. Критерии выделения коллокаций.
  • Синтаксический разбор. Нейросетевой синтаксический анализатор SyntaxNet.
  • Критерии тематичности фраз.
  • Комбинирование синтаксической, статистической и тематической фильтрации фраз.

Тематические модели дистрибутивной семантики.

  • Дистрибутивная гипотеза. Модели CBOW и SGNS в программе word2vec.
  • Модель битермов BTM (Biterm Topic Model) для тематизации коллекций коротких текстов.
  • Модели WNTM (Word Network Topic Model) и WTM (Word Topic Model). Связь с моделью word2vec.
  • Понятие когерентности (согласованности). Экспериментально установленная связь когерентности и интерпретируемости.
  • Регуляризаторы когерентности.

Дополнительный материал:

  • Потапенко А. А. Векторные представления слов и документов. DataFest'4. Видео.

Тематическая сегментация

Презентация: (PDF, 2,4 МБ) — обновление 25.04.2019.

Модели связного текста.

  • Тематическая модель предложений и модель коротких сообщений Twitter-LDA.
  • Контекстная документная кластеризация (CDC).
  • Метод лексических цепочек.

Тематическая сегментация.

  • Метод TopicTiling. Критерии определения границ сегментов.
  • Критерии качества сегментации. Оптимизация параметров модели TopicTiling.

Позиционный регуляризатор в ARTM.

  • Гипотеза о сегментной структуре текста.
  • Регуляризация и пост-обработка Е-шага. Формулы М-шага.
  • Примеры регуляризаторов Е-шага. Разреживание распределения p(t|d,w). Сглаживание тематики слов по контексту.

Анализ зависимостей

Презентация: (PDF, 1,9 МБ) — обновление 25.04.2019.

Зависимости, корреляции, связи.

  • Тематические модели классификации и регрессии.
  • Модель коррелированных тем CTM (Correlated Topic Model).
  • Регуляризаторы гиперссылок и цитирования. Выявление тематических влияний в научных публикациях.

Время и пространство.

  • Регуляризаторы времени.
  • Обнаружение и отслеживание тем.
  • Гео-пространственные модели.

Социальные сети.

  • Сфокусированный поиск в социальных медиа (пример: поиск этно-релевантного контента).
  • Выявление тематических сообществ. Регуляризаторы для направленных и ненаправленных связей.
  • Регуляризаторы для выявления социальных ролей пользователей.

Визуализация и суммаризация тем

Презентация: (PDF, 6,2 МБ) — обновление 25.04.2019.

Средства визуализации тематических моделей.

  • Визуализация матричного разложения.
  • Визуализация кластерных структур, динамики, иерархий, сегментации.
  • Проект VisARTM.

Методы суммаризации текстов.

  • Задачи автоматической суммаризации текстов. Подходы к суммаризации: extractive и abstractive.
  • Оценивание и отбор предложений для суммаризации. Релаксационный метод для многокритериальной дискретной оптимизации.
  • Тематическая модель предложений для суммаризации.
  • Критерии качества суммаризации. Метрики ROUGE, BLUE.

Автоматическое именование тем (topic labeling).

  • Формирование названий-кандидатов.
  • Релевантность, покрытие, различность.
  • Оценивание качества именования тем.

Отчетность по курсу

Рекомендуемая структура отчёта об исследовании по индивидуальному заданию:

  • Постановка задачи: неформальное описание, ДНК (дано–найти–критерий), структура данных
  • Описание простого решения baseline
  • Описание основного решения и его вариантов
  • Описание набора данных и методики экспериментов
  • Результаты экспериментов по подбору гиперпараметров основного решения
  • Результаты экспериментов по сравнению основного решения с baseline
  • Примеры визуализации модели
  • Выводы: что работает, что не работает, инсайты
  • Ссылка на код

Примеры отчётов:

Литература

  1. Воронцов К. В. Обзор вероятностных тематических моделей. 2019.
  2. Hamed Jelodar, Yongli Wang, Chi Yuan, Xia Feng. Latent Dirichlet Allocation (LDA) and Topic modeling: models, applications, a survey. 2017.
  3. Hofmann T. Probabilistic latent semantic indexing // Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval. — New York, NY, USA: ACM, 1999. — Pp. 50–57.
  4. Blei D. M., Ng A. Y., Jordan M. I. Latent Dirichlet allocation // Journal of Machine Learning Research. — 2003. — Vol. 3. — Pp. 993–1022.
  5. Asuncion A., Welling M., Smyth P., Teh Y. W. On smoothing and inference for topic models // Proceedings of the International Conference on Uncertainty in Artificial Intelligence. — 2009.
  6. Янина А. О., Воронцов К. В. Мультимодальные тематические модели для разведочного поиска в коллективном блоге // Машинное обучение и анализ данных. 2016. T.2. №2. С.173-186.

Ссылки

Личные инструменты