Вероятностные тематические модели (курс лекций, К.В.Воронцов)

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(лекция 1, обновление)
(обновление 2108)
Строка 21: Строка 21:
== Введение ==
== Введение ==
-
Презентация: [[Media:Voron-PTM-1.pdf|(PDF, 1,2 МБ)]] {{важно|— обновление 15.02.2018}}.
+
Презентация: [[Media:Voron18ptm-intro.pdf|(PDF, 1,2 МБ)]] {{важно|— обновление 15.02.2018}}.
'''Цели и задачи тематического моделирования.'''
'''Цели и задачи тематического моделирования.'''
Строка 43: Строка 43:
== Обзор базовых инструментов ==
== Обзор базовых инструментов ==
-
''Александр Романенко''.
+
''Александр Романенко'', ''Мурат Апишев''.
Презентация: [[Media:Base_instruments.zip‎|(zip, 0,6 МБ)]] {{важно|— обновление 17.02.2017}}.
Презентация: [[Media:Base_instruments.zip‎|(zip, 0,6 МБ)]] {{важно|— обновление 17.02.2017}}.
Строка 57: Строка 57:
* Обучение простой модели (без регуляризации): создание, инициализация, настройка и оценивание модели.
* Обучение простой модели (без регуляризации): создание, инициализация, настройка и оценивание модели.
* Инструмент визуализации тематических моделей VisARTM. Основные возможности, демонстрация работы.
* Инструмент визуализации тематических моделей VisARTM. Основные возможности, демонстрация работы.
-
 
-
== Аддитивная регуляризация тематических моделей ==
 
-
Презентация: [[Media:Voron17ptm2.pdf|(PDF, 2,5 МБ)]] {{важно|— обновление 10.03.2017}}.
 
-
 
-
'''Регуляризаторы и модальности'''.
 
-
* Мультимодальная ARTM. Виды модальностей и примеры прикладных задач.
 
-
'''Модель LDA'''.
 
-
* [[Латентное размещение Дирихле]] (latent Dirichlet allocation, LDA).
 
-
* Некоторые свойства [[Распределение Дирихле|распределения Дирихле]].
 
-
* Теорема о необходимом условии максимума апостериорной вероятности для LDA.
 
-
* Оптимизация гиперпараметров, метод Минка.
 
-
'''Проекты, задания, открытые проблемы'''
 
-
* Прикладные проекты по тематическому моделированию
 
-
* Примеры заданий по спецкурсу
 
-
* Исследовательские задачи и открытые проблемы
 
'''Дополнительный материал:'''
'''Дополнительный материал:'''
-
* ''Потапенко А. А.'' [[Media:potapenko13online.pdf|Отчет по серии экспериментов с онлайновым алгоритмом]]. 2013.
+
* Презентация: [[Media:VoronApishev17ptm5.pdf|(PDF, 1,5 МБ)]] {{важно|— обновление 17.03.2017}}.
 +
* [https://www.youtube.com/watch?v=2LEQuLRxaIY&t=1s '''Видео'''] {{важно|— обновление 22.03.2017}}.
 +
* Воркшоп по BigARTM на DataFest'4. [https://www.youtube.com/watch?v=oQcHEm2-7PM '''Видео'''].
-
== Сглаживание, разреживание и декоррелирование тем ==
+
== Аддитивная регуляризация тематических моделей ==
-
Презентация: [[Media:Voron17ptm4.pdf|(PDF, 1,3 МБ)]] {{важно|— обновление 10.03.2017}}.
+
Презентация: [[Media:Voron18ptm-artm.pdf|(PDF, 3,1 МБ)]] {{важно|— обновление 15.03.2018}}.
-
'''Эксперименты по устойчивости'''.
+
'''Теория ARTM'''
-
* Эксперименты на синтетических данных: демонстрация неустойчивости PLSA и LDA.
+
* Мультимодальные тематические модели
-
* Эксперименты по неустойчивости LDA на текстовых коллекциях социальных сетей.
+
* Регуляризаторы сглаживания и разреживания
-
'''Регуляризаторы разреживания, сглаживания, декоррелирования и отбора тем.'''
+
* Разделение тем на предметные и фоновые
-
* Регуляризаторы сглаживания и разреживания.
+
'''Время и пространство'''
-
* Частичное обучение как разновидность сглаживания.
+
* Регуляризаторы времени
-
* Разделение тем на предметные и фоновые. Автоматическое выделение слов общей лексики.
+
* Эксперименты на коллекции пресс-релизов
-
* Регуляризатор декоррелирования тем.
+
* Гео-пространственные модели
-
* Разреживающий регуляризатор отбора тем.
+
'''Иерархические тематические модели'''
-
* Эксперименты с композициями разреживания, сглаживания, декоррелирования и отбора тем.
+
* Нисходящая послойная стратегия
-
* Критерии качества тематических моделей: перплексия, когерентность, чистота и контрастность тем.
+
* Оценивание качества тематических иерархий
-
'''Исследование регуляризатора отбора тем.'''
+
* Визуализация иерархии
-
* Эксперименты с полусинтетическими данными.
+
-
* Эффект отбрасывания малых, дублирующих и линейно зависимых тем.
+
-
* Сравнение с байесовской моделью HDP (Hierarchical Dirichlet Process).
+
-
== Регуляризация тематических моделей в BigARTM ==
+
== Разведочный информационный поиск ==
-
''Мурат Апишев''.
+
Презентация: [[Media:Voron18ptm-exp.pdf|(PDF, 4,5 МБ)]] {{важно|— обновление 15.03.2018}}.
-
Презентация: [[Media:VoronApishev17ptm5.pdf|(PDF, 1,5 МБ)]] {{важно|— обновление 17.03.2017}}.
+
-
[https://www.youtube.com/watch?v=2LEQuLRxaIY&t=1s '''Видео'''] {{важно|— обновление 22.03.2017}}.
+
-
'''Напоминания.'''
+
'''Разведочный информационный поиск'''
-
* Задача ТМ, аддитивная регуляризация, мультимодальные модели.
+
* Концепция разведочного поиска
-
* Библиотека BigARTM.
+
* Визуализация больших текстовых коллекций
-
'''Эксперименты в BigARTM.'''
+
* Сценарий разведочного поиска
-
* Стратегии регуляризации.
+
'''Эксперименты с тематическим поиском'''
-
* Возможности и стратегии использования регуляризаторов сглаживания/разреживания и декорреляции тем.
+
* Методика эксперимента
-
* Рекомендации по подбору параметров при построении моделей.
+
* Построение тематической модели
-
* Практические советы и оценивание моделей.
+
* Оптимизация гиперпараметров
-
'''Применение АРТМ для решения реальной прикладной задачи.'''
+
'''Эксперименты с тематическими моделями'''
-
* Работа с реальными данными социальных сетей.
+
* Измерение качества тематической модели
-
* Настройка моделей с несколькими регуляризаторами и модальностями.
+
* Многокритериальное оценивание качества модели
-
 
+
* Определение числа тем и регуляризатор отбора тем
-
'''Дополнительный материал:'''
+
-
* ''Александр Романенко''. Воркшоп по BigARTM на DataFest'4. [https://www.youtube.com/watch?v=oQcHEm2-7PM '''Видео'''].
+
== Байесовское обучение тематических моделей ==
== Байесовское обучение тематических моделей ==
-
Презентация: [[Media:Voron-PTM-Bayes.pdf|(PDF, 1,3 МБ)]] {{важно|— обновление 24.03.2017}}.
+
Презентация: [[Media:Voron-PTM-Bayes.pdf|(PDF, 1,3 МБ)]] {{важно|— обновление ??.??.2018}}.
'''EM-алгоритм.'''
'''EM-алгоритм.'''
Строка 148: Строка 128:
* Модель коррелированных тем CTM (Correlated Topic Model).
* Модель коррелированных тем CTM (Correlated Topic Model).
* Регуляризаторы гиперссылок и цитирования. Выявление тематических влияний в научных публикациях.
* Регуляризаторы гиперссылок и цитирования. Выявление тематических влияний в научных публикациях.
-
'''Время и пространство.'''
 
-
* Регуляризаторы времени для темпоральных тематических моделей. Разреживание тем в каждый момент времени. Сглаживание темы как временного ряда. Пример: анализ коллекции пресс-релизов.
 
-
* Регуляризаторы геолокации для пространственных тематических моделей.
 
'''Социальные сети.'''
'''Социальные сети.'''
* Выявление тематических сообществ. Регуляризаторы для направленных и ненаправленных связей.
* Выявление тематических сообществ. Регуляризаторы для направленных и ненаправленных связей.
Строка 162: Строка 139:
* Регуляризаторы для учёта двуязычных словарей.
* Регуляризаторы для учёта двуязычных словарей.
* Кросс-язычный информационный поиск.
* Кросс-язычный информационный поиск.
-
'''Иерархические модели.'''
 
-
* Иерархические модели. Регуляризаторы для построения иерархий.
 
-
* Оценивание качества и визуализация тематических иерархий.
 
'''Трёхматричные и гиперграфовые модели.'''
'''Трёхматричные и гиперграфовые модели.'''
* Модели трёхматричных разложений. Понятие порождающей модальности.
* Модели трёхматричных разложений. Понятие порождающей модальности.
Строка 214: Строка 188:
-->
-->
 +
<!---
== Примеры приложений тематического моделирования ==
== Примеры приложений тематического моделирования ==
Презентация: [[Media:Voron17ptm11.pdf|(PDF,&nbsp;3,3&nbsp;МБ)]] {{важно|— обновление 16.05.2017}}.
Презентация: [[Media:Voron17ptm11.pdf|(PDF,&nbsp;3,3&nbsp;МБ)]] {{важно|— обновление 16.05.2017}}.
Строка 221: Строка 196:
* Анализ транзакционных данных для выявления паттернов экономического поведения клиентов банка. '''[https://youtu.be/0q5p7xP4cdA?t=15168 Видео]'''.
* Анализ транзакционных данных для выявления паттернов экономического поведения клиентов банка. '''[https://youtu.be/0q5p7xP4cdA?t=15168 Видео]'''.
-
<!---
 
== Обзор задач и моделей ==
== Обзор задач и моделей ==
Презентация: [[Media:Voron-PTM-2.pdf|(PDF,&nbsp;8,3&nbsp;МБ)]] {{важно|— обновление 27.02.2016}}.
Презентация: [[Media:Voron-PTM-2.pdf|(PDF,&nbsp;8,3&nbsp;МБ)]] {{важно|— обновление 27.02.2016}}.

Версия 02:00, 15 марта 2018

Содержание

Спецкурс читается студентам 2—5 курсов на кафедре «Математические методы прогнозирования» ВМиК МГУ с 2013 года.

В спецкурсе изучается вероятностное тематическое моделирование (topic modeling) коллекций текстовых документов. Тематическое моделирование рассматривается как ключевая математическая технология перспективных информационно-поисковых систем нового поколения, основанных на парадигме семантического разведочного поиска (exploratory search). Рассматриваются также прикладные задачи классификации, сегментации и суммаризации текстов, задачи анализа данных социальных сетей и рекомендательных систем. Развивается многокритериальный подход к построению композитных тематических моделей с заданными свойствами — аддитивная регуляризация тематических моделей (АРТМ). Он основан на регуляризации некорректно поставленных задач стохастического матричного разложения. Рассматриваются способы измерения и оптимизации важнейших свойств тематических моделей — правдоподобия, интерпретируемости, устойчивости, полноты. Рассматриваются задачи анализа и классификации символьных последовательностей неязыковой природы, в частности, аминокислотных и нуклеотидных последовательностей, дискретизированных биомедицинских сигналов. Предполагается проведение студентами численных экспериментов на модельных и реальных данных с помощью библиотеки тематического моделирования BigARTM.

От студентов требуются знания курсов линейной алгебры, математического анализа, теории вероятностей. Знание математической статистики, методов оптимизации, машинного обучения, языков программирования Python и С++ желательно, но не обязательно.

Материалы для первого ознакомления:

Обзорная презентация: (PDF, 4,4 МБ) — обновление 14.03.2016.
Видеолекция на ПостНауке: Разведочный информационный поиск.

Основной материал:

Обзор вероятностных тематических моделей — обновление 14.07.2017.

Краткая ссылка на эту страницу: bit.ly/2EGWcjA.

Программа курса

Условием сдачи спецкурса является выполнение индивидуальных практических заданий.

Введение

Презентация: (PDF, 1,2 МБ) — обновление 15.02.2018.

Цели и задачи тематического моделирования.

  • Понятие «темы», цели и задачи тематического моделирования.
  • Основные предположения. Гипотеза «мешка слов» (bag-of-words). Методы предварительной обработки текстов.
  • Вероятностное пространство. Тема как латентная (ненаблюдаемая) переменная. Гипотеза условной независимости.
  • Порождающая модель документа как вероятностной смеси тем.
  • Упрощённая вероятностная модель текста и элементарное решение обратной задачи
  • Постановка обратной задачи восстановления параметров модели по данным.

Математический инструментарий.

Аддитивная регуляризация тематических моделей.

  • Теорема о необходимом условии максимума регуляризованного правдоподобия для ARTM.
  • EM-алгоритм и его элементарная интерпретация. Формула Байеса и частотные оценки условных вероятностей.
  • Вероятностный латентный семантический анализ (probabilistic latent semantic analysis, PLSA).
  • Рациональный ЕМ-алгоритм (встраивание Е-шага внутрь М-шага). Оффлайновый регуляризованный EM-алгоритм.
  • Онлайновый регуляризованный EM-алгоритм. Распараллеливание.
  • Библиотека BigARTM.

Обзор базовых инструментов

Александр Романенко, Мурат Апишев. Презентация: (zip, 0,6 МБ) — обновление 17.02.2017.

Предварительная обработка текстов

  • Парсинг "сырых" данных.
  • Токенизация, стемминг и лемматизация.
  • Выделение энграмм.
  • Законы Ципфа и Хипса. Фильтрация словаря коллекции. Удаление стоп-слов.

Библиотека BigARTM

  • Методологические рекоммендации по проведению экспериментов.
  • Установка BigARTM.
  • Формат и импорт входных данных.
  • Обучение простой модели (без регуляризации): создание, инициализация, настройка и оценивание модели.
  • Инструмент визуализации тематических моделей VisARTM. Основные возможности, демонстрация работы.

Дополнительный материал:

  • Презентация: (PDF, 1,5 МБ) — обновление 17.03.2017.
  • Видео — обновление 22.03.2017.
  • Воркшоп по BigARTM на DataFest'4. Видео.

Аддитивная регуляризация тематических моделей

Презентация: (PDF, 3,1 МБ) — обновление 15.03.2018.

Теория ARTM

  • Мультимодальные тематические модели
  • Регуляризаторы сглаживания и разреживания
  • Разделение тем на предметные и фоновые

Время и пространство

  • Регуляризаторы времени
  • Эксперименты на коллекции пресс-релизов
  • Гео-пространственные модели

Иерархические тематические модели

  • Нисходящая послойная стратегия
  • Оценивание качества тематических иерархий
  • Визуализация иерархии

Разведочный информационный поиск

Презентация: (PDF, 4,5 МБ) — обновление 15.03.2018.

Разведочный информационный поиск

  • Концепция разведочного поиска
  • Визуализация больших текстовых коллекций
  • Сценарий разведочного поиска

Эксперименты с тематическим поиском

  • Методика эксперимента
  • Построение тематической модели
  • Оптимизация гиперпараметров

Эксперименты с тематическими моделями

  • Измерение качества тематической модели
  • Многокритериальное оценивание качества модели
  • Определение числа тем и регуляризатор отбора тем

Байесовское обучение тематических моделей

Презентация: (PDF, 1,3 МБ) — обновление ??.??.2018.

EM-алгоритм.

  • Задачи оценивания скрытых параметров вероятностной модели.
  • EM-алгоритм для максимизации неполного правдоподобия. Сходимость в слабом смысле.
  • EM-алгоритм для модели PLSA.
  • EM-алгоритм с регуляризацией.

Методы оценивания параметров в модели LDA.

Языки описания вероятностных порождающих моделей.

  • Графическая плоская нотация (plate notation). Stop using plate notation.
  • Псевдокод порождающего процесса (genarative story).
  • Постановки оптимизационных задач.
  • Как читать статьи по баейсовским моделям и строить эквивалентные ARTM-модели.

Дополнительный материал:

Тематические модели для анализа зависимостей

Презентация: (PDF, 1,9 МБ) — обновление 31.03.2017.

Классификация и регрессия.

Связи и корреляции.

  • Модель коррелированных тем CTM (Correlated Topic Model).
  • Регуляризаторы гиперссылок и цитирования. Выявление тематических влияний в научных публикациях.

Социальные сети.

  • Выявление тематических сообществ. Регуляризаторы для направленных и ненаправленных связей.
  • Регуляризаторы для выявления социальных ролей пользователей.

Мультимодальные тематические модели

Презентация: (PDF, 1,9 МБ) — обновление 07.04.2017.

Мультиязычные тематические модели.

  • Параллельные и сравнимые коллекции.
  • Регуляризаторы для учёта двуязычных словарей.
  • Кросс-язычный информационный поиск.

Трёхматричные и гиперграфовые модели.

  • Модели трёхматричных разложений. Понятие порождающей модальности.
  • Автор-тематическая модель (author-topic model).
  • Примеры транзакционных данных в рекомендательных системах, социальных и рекламных сетях.
  • Теорема о необходимом условии максимума регуляризованного правдоподобия для гиперграфовой ARTM.

Тематические модели совстречаемости слов

Презентация: (PDF, 1,6 МБ) — обновление 15.04.2017.

Мультиграммные модели.

  • Модель BigramTM.
  • Модель Topical N-grams (TNG).
  • Мультимодальная мультиграммная модель.

Автоматическое выделение терминов.

  • Алгоритм TopMine для быстрого поиска частых фраз. Критерии выделения коллокаций.
  • Синтаксический разбор. Нейросетевой синтаксический анализатор SyntaxNet.
  • Критерии тематичности фраз.

Тематические модели дистрибутивной семантики.

  • Дистрибутивная гипотеза.
  • Модель битермов BTM (Biterm Topic Model) для тематизации коллекций коротких текстов.
  • Модели WNTM (Word Network Topic Model) и WTM (Word Topic Model). Связь с моделью word2vec.
  • Понятие когерентности (согласованности). Экспериментально установленная связь когерентности и интерпретируемости.
  • Регуляризаторы когерентности.

Дополнительный материал:

  • Потапенко А. А. Векторные представления слов и документов. DataFest'4. Видео.

Тематическая сегментация и суммаризация

Презентация: (PDF, 2,0 МБ) — обновление 05.05.2017.

Модели связного текста.

  • Тематическая модель предложений и модель коротких сообщений Twitter-LDA.
  • Контекстная документная кластеризация (CDC).
  • Метод лексических цепочек.

Тематическая сегментация.

  • Метод TopicTiling. Критерии определения границ сегментов.
  • Критерии качества сегментации. Оптимизация параметров модели TopicTiling.

Методы суммаризации текстов.

  • Автоматическая суммаризация текстов: задачи и подходы.
  • Релаксационный метод для многокритериальной дискретной оптимизации.
  • Тематическая модель предложений для суммаризации.
  • Семейство критериев качества суммаризации ROUGE.


Литература

  1. Воронцов К. В. Обзор вероятностных тематических моделей. — обновление 31.07.2017.
  2. Blei D. M., Ng A. Y., Jordan M. I. Latent Dirichlet allocation // Journal of Machine Learning Research. — 2003. — Vol. 3. — Pp. 993–1022.
  3. Asuncion A., Welling M., Smyth P., Teh Y. W. On smoothing and inference for topic models // Proceedings of the International Conference on Uncertainty in Artificial Intelligence. — 2009.
  4. Lu Y., Mei Q., Zhai C. Investigating task performance of probabilistic topic models: an empirical study of PLSA and LDA // Information Retrieval. — 2011. — Vol.14, no.2. — Pp. 178–203.
  5. Янина А. О., Воронцов К. В. Мультимодальные тематические модели для разведочного поиска в коллективном блоге // Машинное обучение и анализ данных. 2016. T.2. №2. С.173-186.

Ссылки

Подстраницы

Вероятностные тематические модели (курс лекций, К.В.Воронцов)/2015Вероятностные тематические модели (курс лекций, К.В.Воронцов)/2016Вероятностные тематические модели (курс лекций, К.В.Воронцов)/2017
Вероятностные тематические модели (курс лекций, К.В.Воронцов)/2018Вероятностные тематические модели (курс лекций, К.В.Воронцов)/2019, ВМКВероятностные тематические модели (курс лекций, К.В.Воронцов)/2020
Вероятностные тематические модели (курс лекций, К.В.Воронцов)/2021
Личные инструменты