Вероятностные тематические модели (курс лекций, К.В.Воронцов)

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(оформление)
(двухуровневая реструктуризация)
Строка 15: Строка 15:
== Введение ==
== Введение ==
Презентация: [[Media:Voron-PTM-1.pdf|(PDF, 0,6 МБ)]] {{важно|— обновление 27.02.2016}}.
Презентация: [[Media:Voron-PTM-1.pdf|(PDF, 0,6 МБ)]] {{важно|— обновление 27.02.2016}}.
 +
'''Цели и задачи тематического моделирования.'''
* Понятие «темы», цели и задачи тематического моделирования. Основные предположения. Гипотеза «мешка слов». Методы предварительной обработки текстов.
* Понятие «темы», цели и задачи тематического моделирования. Основные предположения. Гипотеза «мешка слов». Методы предварительной обработки текстов.
* Вероятностное пространство. Тема как латентная (ненаблюдаемая) переменная. Гипотеза условной независимости. [[Порождающая модель]] документа как вероятностной смеси тем.
* Вероятностное пространство. Тема как латентная (ненаблюдаемая) переменная. Гипотеза условной независимости. [[Порождающая модель]] документа как вероятностной смеси тем.
* Постановка обратной задачи восстановления параметров модели по данным.
* Постановка обратной задачи восстановления параметров модели по данным.
 +
'''Математический инструментарий.'''
 +
* [[Метод наибольшего правдоподобия|Принцип максимума правдоподобия]].
 +
* [[Условия Каруша–Куна–Таккера]].
 +
* Униграммные модели коллекции и документа.
 +
'''Тематическая модель PLSA.'''
* [[Вероятностный латентный семантический анализ]] (PLSA).
* [[Вероятностный латентный семантический анализ]] (PLSA).
-
* [[Метод наибольшего правдоподобия|Принцип максимума правдоподобия]], [[Условия Каруша–Куна–Таккера]]. Униграммные модели коллекции и документа.
 
* Теорема о необходимых условиях максимума правдоподобия для модели PLSA.
* Теорема о необходимых условиях максимума правдоподобия для модели PLSA.
* ЕМ-алгоритм и его элементарная интерпретация. Формула Байеса и частотные оценки условных вероятностей.
* ЕМ-алгоритм и его элементарная интерпретация. Формула Байеса и частотные оценки условных вероятностей.
Строка 26: Строка 31:
== Обзор задач и моделей ==
== Обзор задач и моделей ==
Презентация: [[Media:Voron-PTM-2.pdf|(PDF, 8,3 МБ)]] {{важно|— обновление 27.02.2016}}.
Презентация: [[Media:Voron-PTM-2.pdf|(PDF, 8,3 МБ)]] {{важно|— обновление 27.02.2016}}.
 +
'''Обзор моделей и задачи разведочного информационного поиска.'''
* Разновидности тематических моделей.
* Разновидности тематических моделей.
* Средства визуализации тематических моделей.
* Средства визуализации тематических моделей.
* Разведочный информационный поиск и требования к тематическим моделям.
* Разведочный информационный поиск и требования к тематическим моделям.
 +
'''Примеры приложений тематического моделирования.'''
* Задача поиска релевантных тем в социальных сетях.
* Задача поиска релевантных тем в социальных сетях.
* Применение тематического моделирования для [[Технология информационного анализа электрокардиосигналов|информационного анализа электрокардиосигналов]].
* Применение тематического моделирования для [[Технология информационного анализа электрокардиосигналов|информационного анализа электрокардиосигналов]].
* Динамическая модель коллекции пресс-релизов.
* Динамическая модель коллекции пресс-релизов.
-
* Проект [[BigARTM]].
+
'''BigARTM.'''
 +
* Проект [[BigARTM]]. Функциональные возможности и основные идеи.
* Открытые проблемы и направления исследований.
* Открытые проблемы и направления исследований.
== Латентное размещение Дирихле ==
== Латентное размещение Дирихле ==
Презентация: [[Media:Voron-PTM-3.pdf|(PDF, 1,9 МБ)]] {{важно|— обновление 04.03.2016}}.
Презентация: [[Media:Voron-PTM-3.pdf|(PDF, 1,9 МБ)]] {{важно|— обновление 04.03.2016}}.
 +
'''Модель LDA.'''
* Задача тематического моделирования как некорректно поставленная задача стохастического матричного разложения.
* Задача тематического моделирования как некорректно поставленная задача стохастического матричного разложения.
-
* [[Латентное размещение Дирихле]] (LDA). Некоторые свойства [[Распределение Дирихле|распределения Дирихле]].
+
* [[Латентное размещение Дирихле]] (LDA).
 +
* Некоторые свойства [[Распределение Дирихле|распределения Дирихле]].
* Теорема о необходимом условии максимума апостериорной вероятности для LDA.
* Теорема о необходимом условии максимума апостериорной вероятности для LDA.
* Сравнение EM-алгоритма для LDA и PLSA.
* Сравнение EM-алгоритма для LDA и PLSA.
* Алгоритм сэмплирования Гиббса.
* Алгоритм сэмплирования Гиббса.
 +
'''Робастная тематическая модель.'''
* Модель SWB с фоном и шумом. Робастная тематическая модель.
* Модель SWB с фоном и шумом. Робастная тематическая модель.
* Модель LDA не снижает переобучение, а лишь точнее описывает вероятности редких слов.
* Модель LDA не снижает переобучение, а лишь точнее описывает вероятности редких слов.
 +
'''Эксперименты по неустойчивости PLSA и LDA.'''
* Способы измерения расстояния между дискретными распределениями. [[Дивергенция Кульбака-Лейблера]].
* Способы измерения расстояния между дискретными распределениями. [[Дивергенция Кульбака-Лейблера]].
* Эксперименты на синтетических данных: демонстрация неустойчивости PLSA и LDA.
* Эксперименты на синтетических данных: демонстрация неустойчивости PLSA и LDA.
Строка 50: Строка 62:
== Аддитивная регуляризация тематических моделей ==
== Аддитивная регуляризация тематических моделей ==
Презентация: [[Media:Voron-PTM-4.pdf|(PDF, 1,7 МБ)]] {{важно|— обновление 11.03.2016}}.
Презентация: [[Media:Voron-PTM-4.pdf|(PDF, 1,7 МБ)]] {{важно|— обновление 11.03.2016}}.
 +
'''Регуляризационный подход ARTM'''
* [[Аддитивная регуляризация тематических моделей]]. Линейные композиции регуляризаторов.
* [[Аддитивная регуляризация тематических моделей]]. Линейные композиции регуляризаторов.
* Теорема о необходимом условии максимума регуляризованного правдоподобия для ARTM.
* Теорема о необходимом условии максимума регуляризованного правдоподобия для ARTM.
* Мультимодальная ARTM. Виды модальностей и примеры прикладных задач.
* Мультимодальная ARTM. Виды модальностей и примеры прикладных задач.
* Теорема о необходимом условии максимума регуляризованного правдоподобия для мультимодальной ARTM.
* Теорема о необходимом условии максимума регуляризованного правдоподобия для мультимодальной ARTM.
 +
'''EM-алгоритм.'''
* Оффлайновый регуляризованный EM-алгоритм.
* Оффлайновый регуляризованный EM-алгоритм.
* Онлайновый регуляризованный EM-алгоритм. Разделение коллекции на пакеты документов.
* Онлайновый регуляризованный EM-алгоритм. Разделение коллекции на пакеты документов.
-
* Обзор возможностей библиотеки BigARTM. Установка, подготовка данных, создание модели, оценивание модели.
+
'''Использование BigARTM.'''
 +
* Обзор возможностей библиотеки BigARTM.
 +
* Установка, подготовка данных, создание модели, оценивание модели.
'''Литература:'''
'''Литература:'''
Строка 63: Строка 79:
== Регуляризаторы I ==
== Регуляризаторы I ==
Презентация: [[Media:Voron-PTM-5.pdf|(PDF, Х,Х МБ)]] {{важно|— обновление ХХ.ХХ.2016}}.
Презентация: [[Media:Voron-PTM-5.pdf|(PDF, Х,Х МБ)]] {{важно|— обновление ХХ.ХХ.2016}}.
 +
'''Базовые регуляризаторы.'''
* Регуляризаторы сглаживания и разреживания. Частичное обучение как разновидность сглаживания.
* Регуляризаторы сглаживания и разреживания. Частичное обучение как разновидность сглаживания.
* Разделение тем на предметные и фоновые. Автоматическое выделение стоп-слов.
* Разделение тем на предметные и фоновые. Автоматическое выделение стоп-слов.
* Регуляризатор декоррелирования тем.
* Регуляризатор декоррелирования тем.
-
* Регуляризатор отбора тем. Эффект отбрасывания малых, дублирующих и линейно зависимых тем. Сравнение с байесовской моделью HDP (Hierarchical Dirichlet Process).
+
'''Определение числа тем.'''
-
* Критерии качества тематических моделей: перплексия, когерентность, чистота и контрастность тем. Эксперименты с композициями разреживания, сглаживания, декоррелирования и отбора тем.
+
* Регуляризатор отбора тем.
 +
* Эффект отбрасывания малых, дублирующих и линейно зависимых тем.
 +
* Сравнение с байесовской моделью HDP (Hierarchical Dirichlet Process).
 +
'''Оценивание качества и первые эксперименты с ARTM.'''
 +
* Критерии качества тематических моделей: перплексия, когерентность, чистота и контрастность тем.
 +
* Эксперименты с композициями разреживания, сглаживания, декоррелирования и отбора тем.
 +
'''Использование BigARTM.'''
* Использование регуляризаторов и измерителей в BigARTM.
* Использование регуляризаторов и измерителей в BigARTM.
* Комбинирование регуляризаторов для решения практических задач в BigARTM.
* Комбинирование регуляризаторов для решения практических задач в BigARTM.
Строка 79: Строка 102:
== Регуляризаторы II ==
== Регуляризаторы II ==
Презентация: [[Media:Voron-PTM-6.pdf|(PDF, Х,Х МБ)]] {{важно|— обновление ХХ.ХХ.2016}}.
Презентация: [[Media:Voron-PTM-6.pdf|(PDF, Х,Х МБ)]] {{важно|— обновление ХХ.ХХ.2016}}.
 +
'''Связи и корреляции.'''
* Регуляризаторы для регрессии и классификации на текстах.
* Регуляризаторы для регрессии и классификации на текстах.
* Регуляризатор CTM (Correlated Topic Model).
* Регуляризатор CTM (Correlated Topic Model).
* Регуляризатор для учёта гиперссылок и цитирования. Выявление тематических влияний в научных публикациях.
* Регуляризатор для учёта гиперссылок и цитирования. Выявление тематических влияний в научных публикациях.
 +
* Регуляризаторы для анализа социальных сетей и выделения тематических сообществ.
 +
'''Время и пространство.'''
* Регуляризаторы времени для темпоральных тематических моделей. Разреживание тем в каждый момент времени. Сглаживание темы как временного ряда. Эксперименты на коллекции пресс-релизов.
* Регуляризаторы времени для темпоральных тематических моделей. Разреживание тем в каждый момент времени. Сглаживание темы как временного ряда. Эксперименты на коллекции пресс-релизов.
* Вывод M-шага для негладкого регуляризатора.
* Вывод M-шага для негладкого регуляризатора.
* Регуляризаторы геолокации для пространственных тематических моделей.
* Регуляризаторы геолокации для пространственных тематических моделей.
-
* Регуляризаторы для анализа социальных сетей и выделения тематических сообществ.
+
'''Использование BigARTM.'''
 +
* Как написать свой регуляризатор в BigARTM.
== Мультимодальные тематические модели ==
== Мультимодальные тематические модели ==
Презентация: [[Media:Voron-PTM-7.pdf|(PDF, Х,Х МБ)]] {{важно|— обновление ХХ.ХХ.2016}}.
Презентация: [[Media:Voron-PTM-7.pdf|(PDF, Х,Х МБ)]] {{важно|— обновление ХХ.ХХ.2016}}.
 +
'''Двухматричные разложения.'''
* Тематическая модель классификации. Пример: [[Технология информационного анализа электрокардиосигналов]].
* Тематическая модель классификации. Пример: [[Технология информационного анализа электрокардиосигналов]].
* Мультиязычные тематические модели. Параллельные и сравнимые коллекции. Регуляризаторы для учёта двуязычных словарей.
* Мультиязычные тематические модели. Параллельные и сравнимые коллекции. Регуляризаторы для учёта двуязычных словарей.
* Мультиграммные модели. Биграммы и битермы.
* Мультиграммные модели. Биграммы и битермы.
 +
'''Многоматричные разложения.'''
* Модели трёхматричных разложений. Понятие порождающей модальности.
* Модели трёхматричных разложений. Понятие порождающей модальности.
* Автор-тематическая модель (author-topic model).
* Автор-тематическая модель (author-topic model).
Строка 97: Строка 126:
* Тематическая модель текста и изображений. Задача аннотирования изображений.
* Тематическая модель текста и изображений. Задача аннотирования изображений.
* Модель для выделения поведений объектов в видеопотоке.
* Модель для выделения поведений объектов в видеопотоке.
-
* Гиперграфовая модель. Примеры транзакционных данных в рекомендательных системах, социальных и рекламных сетях.
+
'''Гиперграфовая модель.'''
 +
* Примеры транзакционных данных в рекомендательных системах, социальных и рекламных сетях.
* Теорема о необходимом условии максимума регуляризованного правдоподобия для гиперграфовой ARTM.
* Теорема о необходимом условии максимума регуляризованного правдоподобия для гиперграфовой ARTM.
== Лингвистические тематические модели ==
== Лингвистические тематические модели ==
Презентация: [[Media:Voron-PTM-8.pdf|(PDF, Х,Х МБ)]] {{важно|— обновление ХХ.ХХ.2016}}.
Презентация: [[Media:Voron-PTM-8.pdf|(PDF, Х,Х МБ)]] {{важно|— обновление ХХ.ХХ.2016}}.
-
* Мультиграммные модели. Биграммная тематическая модель.
+
'''Мультиграммные тематические модели.'''
-
* Автоматическое извлечение терминов. Задача редукции словаря (vocabulary reduction). Словарные лингвистические ресурсы.
+
* Биграммная тематическая модель.
 +
'''Автоматическое извлечение терминов.'''
 +
* Задача редукции словаря (vocabulary reduction). Словарные лингвистические ресурсы.
* Синтаксическая, статистическая и тематическая фильтрация фраз.
* Синтаксическая, статистическая и тематическая фильтрация фраз.
* Морфологический и микро-синтаксический анализ текста для первичной фильтрации фраз.
* Морфологический и микро-синтаксический анализ текста для первичной фильтрации фраз.
Строка 109: Строка 141:
* Тематическая фильтрация фраз.
* Тематическая фильтрация фраз.
* Методы оценивания качества фильтрации.
* Методы оценивания качества фильтрации.
-
* Когерентность как мера интерпретируемости униграммных моделей. Регуляризатор когерентности.
+
'''Совстречаемость слов.'''
 +
* Способы оценивания совместной встречаемости слов. Поточечная взаимная информация.
 +
* Эксперименты, показывающие связь когерентности и интерпретируемости.
 +
* Когерентность как мера интерпретируемости униграммных моделей.
 +
* Регуляризатор когерентности.
 +
'''Модели дистрибутивной семантики.'''
 +
* Векторные модели слов (word embedding).
* Векторная модель word2vec и её интерпретация как латентной модели с матричным разложением.
* Векторная модель word2vec и её интерпретация как латентной модели с матричным разложением.
* Гибрид тематической модели и векторной модели word2vec.
* Гибрид тематической модели и векторной модели word2vec.
Строка 117: Строка 155:
== Сегментация, аннотирование, суммаризация, именование тем ==
== Сегментация, аннотирование, суммаризация, именование тем ==
Презентация: [[Media:Voron-PTM-9.pdf|(PDF, Х,Х МБ)]] {{важно|— обновление ХХ.ХХ.2016}}.
Презентация: [[Media:Voron-PTM-9.pdf|(PDF, Х,Х МБ)]] {{важно|— обновление ХХ.ХХ.2016}}.
-
* Позиционный регуляризатор в ARTM, вывод формул М-шага. Пост-обработка Е-шага. Разреживание распределения p(t|d,w).
+
'''Позиционный регуляризатор в ARTM.'''
 +
* Пост-обработка Е-шага. Формулы М-шага. Разреживание распределения p(t|d,w).
* Интерпретация текста как пучка временных рядов. Задача разладки. Алгоритмы K-сегментации.
* Интерпретация текста как пучка временных рядов. Задача разладки. Алгоритмы K-сегментации.
 +
'''Тематическая сегментация.'''
* Тематические модели сегментации (segmentation topic model).
* Тематические модели сегментации (segmentation topic model).
* Тематические модели предложений (sentence topic model).
* Тематические модели предложений (sentence topic model).
 +
'''Аннотирование и суммаризация.'''
* Аннотирование документа. Выделение тематичных слов и фраз (предложений). Оценка ценности фразы.
* Аннотирование документа. Выделение тематичных слов и фраз (предложений). Оценка ценности фразы.
 +
* Суммаризация текстовой коллекции.
* Суммаризация темы. Кластеризация и ранжирование тематичных фраз.
* Суммаризация темы. Кластеризация и ранжирование тематичных фраз.
* Автоматическое именование темы (topic labeling).
* Автоматическое именование темы (topic labeling).
Строка 156: Строка 198:
* Однородность темы: распределение расстояний между p(w|t) и p(w|t,d).
* Однородность темы: распределение расстояний между p(w|t) и p(w|t,d).
* Конфликтность темы: близость темы к другим темам.
* Конфликтность темы: близость темы к другим темам.
-
'''Оценивание интерпретируемости тем.'''
+
* Интерпретируемость темы: экспертные оценки, метод интрузий, когерентность. Взрыв интерпретируемости в n-граммных моделях.
-
* Экспертное оценивание интерпретируемости. Асессорская разметка терминов и документов, релевантных теме.
+
-
* Метод интрузий.
+
-
* Радикальное улучшение интерпретируемости в n-граммных тематических моделях.
+
'''Устойчивость и полнота.'''
'''Устойчивость и полнота.'''
* Эксперименты по оцениванию устойчивости, интерпретируемости и полноты.
* Эксперименты по оцениванию устойчивости, интерпретируемости и полноты.
* Построение выпуклых оболочек тем и фильтрация зависимых тем в сериях тематических моделей.
* Построение выпуклых оболочек тем и фильтрация зависимых тем в сериях тематических моделей.
-
'''Когерентность.'''
 
-
* Определение когерентности.
 
-
* Эксперименты, показывающие связь когерентности и интерпретируемости.
 
-
* Способы оценивания совместной встречаемости слов.
 
'''Критерии качества классификации и ранжирования.'''
'''Критерии качества классификации и ранжирования.'''
* Полнота, точность и F-мера в задачах классификации и ранжирования.
* Полнота, точность и F-мера в задачах классификации и ранжирования.

Версия 09:10, 13 марта 2016

Содержание

Спецкурс читается студентам 2—5 курсов на кафедре «Математические методы прогнозирования» ВМиК МГУ с 2013 года.

В спецкурсе изучается вероятностное тематическое моделирование (topic modeling) коллекций текстовых документов. Развивается многокритериальный подход к решению некорректно поставленной задачи стохастического матричного разложения — аддитивная регуляризация тематических моделей. Рассматриваются свойства интерпретируемости, устойчивости и полноты тематических моделей, а также способы их измерения. Рассматриваются прикладные задачи классификации и категоризации текстов, информационного поиска, персонализации и рекомендательных систем. Рассматриваются задачи анализа и классификации символьных последовательностей неязыковой природы, в частности, аминокислотных и нуклеотидных последовательностей, дискретизированных биомедицинских сигналов. Предполагается проведение студентами численных экспериментов на модельных и реальных данных.

От студентов требуются знания курсов линейной алгебры, математического анализа, теории вероятностей. Знание математической статистики, методов оптимизации, машинного обучения, языков программирования Python и С++ желательно, но не обязательно.

Программа курса

Условием сдачи спецкурса является выполнение индивидуальных практических заданий.

Введение

Презентация: (PDF, 0,6 МБ) — обновление 27.02.2016. Цели и задачи тематического моделирования.

  • Понятие «темы», цели и задачи тематического моделирования. Основные предположения. Гипотеза «мешка слов». Методы предварительной обработки текстов.
  • Вероятностное пространство. Тема как латентная (ненаблюдаемая) переменная. Гипотеза условной независимости. Порождающая модель документа как вероятностной смеси тем.
  • Постановка обратной задачи восстановления параметров модели по данным.

Математический инструментарий.

Тематическая модель PLSA.

  • Вероятностный латентный семантический анализ (PLSA).
  • Теорема о необходимых условиях максимума правдоподобия для модели PLSA.
  • ЕМ-алгоритм и его элементарная интерпретация. Формула Байеса и частотные оценки условных вероятностей.
  • Рациональный ЕМ-алгоритм (встраивание Е-шага внутрь М-шага).

Обзор задач и моделей

Презентация: (PDF, 8,3 МБ) — обновление 27.02.2016. Обзор моделей и задачи разведочного информационного поиска.

  • Разновидности тематических моделей.
  • Средства визуализации тематических моделей.
  • Разведочный информационный поиск и требования к тематическим моделям.

Примеры приложений тематического моделирования.

BigARTM.

  • Проект BigARTM. Функциональные возможности и основные идеи.
  • Открытые проблемы и направления исследований.

Латентное размещение Дирихле

Презентация: (PDF, 1,9 МБ) — обновление 04.03.2016. Модель LDA.

  • Задача тематического моделирования как некорректно поставленная задача стохастического матричного разложения.
  • Латентное размещение Дирихле (LDA).
  • Некоторые свойства распределения Дирихле.
  • Теорема о необходимом условии максимума апостериорной вероятности для LDA.
  • Сравнение EM-алгоритма для LDA и PLSA.
  • Алгоритм сэмплирования Гиббса.

Робастная тематическая модель.

  • Модель SWB с фоном и шумом. Робастная тематическая модель.
  • Модель LDA не снижает переобучение, а лишь точнее описывает вероятности редких слов.

Эксперименты по неустойчивости PLSA и LDA.

  • Способы измерения расстояния между дискретными распределениями. Дивергенция Кульбака-Лейблера.
  • Эксперименты на синтетических данных: демонстрация неустойчивости PLSA и LDA.
  • Эксперименты по неустойчивости LDA на текстовых коллекциях социальных сетей.

Аддитивная регуляризация тематических моделей

Презентация: (PDF, 1,7 МБ) — обновление 11.03.2016. Регуляризационный подход ARTM

  • Аддитивная регуляризация тематических моделей. Линейные композиции регуляризаторов.
  • Теорема о необходимом условии максимума регуляризованного правдоподобия для ARTM.
  • Мультимодальная ARTM. Виды модальностей и примеры прикладных задач.
  • Теорема о необходимом условии максимума регуляризованного правдоподобия для мультимодальной ARTM.

EM-алгоритм.

  • Оффлайновый регуляризованный EM-алгоритм.
  • Онлайновый регуляризованный EM-алгоритм. Разделение коллекции на пакеты документов.

Использование BigARTM.

  • Обзор возможностей библиотеки BigARTM.
  • Установка, подготовка данных, создание модели, оценивание модели.

Литература:

Регуляризаторы I

Презентация: (PDF, Х,Х МБ) — обновление ХХ.ХХ.2016. Базовые регуляризаторы.

  • Регуляризаторы сглаживания и разреживания. Частичное обучение как разновидность сглаживания.
  • Разделение тем на предметные и фоновые. Автоматическое выделение стоп-слов.
  • Регуляризатор декоррелирования тем.

Определение числа тем.

  • Регуляризатор отбора тем.
  • Эффект отбрасывания малых, дублирующих и линейно зависимых тем.
  • Сравнение с байесовской моделью HDP (Hierarchical Dirichlet Process).

Оценивание качества и первые эксперименты с ARTM.

  • Критерии качества тематических моделей: перплексия, когерентность, чистота и контрастность тем.
  • Эксперименты с композициями разреживания, сглаживания, декоррелирования и отбора тем.

Использование BigARTM.

  • Использование регуляризаторов и измерителей в BigARTM.
  • Комбинирование регуляризаторов для решения практических задач в BigARTM.

Байесовские тематические модели

  • EM-алгоритм.
  • Вариационный байесовский вывод.
  • Семплирование Гиббса.
  • Как читать статьи по баейсовским моделям и строить эквивалентные ARTM-модели.

Регуляризаторы II

Презентация: (PDF, Х,Х МБ) — обновление ХХ.ХХ.2016. Связи и корреляции.

  • Регуляризаторы для регрессии и классификации на текстах.
  • Регуляризатор CTM (Correlated Topic Model).
  • Регуляризатор для учёта гиперссылок и цитирования. Выявление тематических влияний в научных публикациях.
  • Регуляризаторы для анализа социальных сетей и выделения тематических сообществ.

Время и пространство.

  • Регуляризаторы времени для темпоральных тематических моделей. Разреживание тем в каждый момент времени. Сглаживание темы как временного ряда. Эксперименты на коллекции пресс-релизов.
  • Вывод M-шага для негладкого регуляризатора.
  • Регуляризаторы геолокации для пространственных тематических моделей.

Использование BigARTM.

  • Как написать свой регуляризатор в BigARTM.

Мультимодальные тематические модели

Презентация: (PDF, Х,Х МБ) — обновление ХХ.ХХ.2016. Двухматричные разложения.

Многоматричные разложения.

  • Модели трёхматричных разложений. Понятие порождающей модальности.
  • Автор-тематическая модель (author-topic model).
  • Иерархические модели. Оценивание качества тематических иерархий.
  • Тематическая модель текста и изображений. Задача аннотирования изображений.
  • Модель для выделения поведений объектов в видеопотоке.

Гиперграфовая модель.

  • Примеры транзакционных данных в рекомендательных системах, социальных и рекламных сетях.
  • Теорема о необходимом условии максимума регуляризованного правдоподобия для гиперграфовой ARTM.

Лингвистические тематические модели

Презентация: (PDF, Х,Х МБ) — обновление ХХ.ХХ.2016. Мультиграммные тематические модели.

  • Биграммная тематическая модель.

Автоматическое извлечение терминов.

  • Задача редукции словаря (vocabulary reduction). Словарные лингвистические ресурсы.
  • Синтаксическая, статистическая и тематическая фильтрация фраз.
  • Морфологический и микро-синтаксический анализ текста для первичной фильтрации фраз.
  • Статистическая фильтрация фраз. Критерий коллокации CValue. Совмещение критериев TF-IDF и CValue.
  • Тематическая фильтрация фраз.
  • Методы оценивания качества фильтрации.

Совстречаемость слов.

  • Способы оценивания совместной встречаемости слов. Поточечная взаимная информация.
  • Эксперименты, показывающие связь когерентности и интерпретируемости.
  • Когерентность как мера интерпретируемости униграммных моделей.
  • Регуляризатор когерентности.

Модели дистрибутивной семантики.

  • Векторные модели слов (word embedding).
  • Векторная модель word2vec и её интерпретация как латентной модели с матричным разложением.
  • Гибрид тематической модели и векторной модели word2vec.
  • Связь word2vec с регуляризатором когерентности.
  • Эксперименты с гибридной моделью W2V-TM.

Сегментация, аннотирование, суммаризация, именование тем

Презентация: (PDF, Х,Х МБ) — обновление ХХ.ХХ.2016. Позиционный регуляризатор в ARTM.

  • Пост-обработка Е-шага. Формулы М-шага. Разреживание распределения p(t|d,w).
  • Интерпретация текста как пучка временных рядов. Задача разладки. Алгоритмы K-сегментации.

Тематическая сегментация.

  • Тематические модели сегментации (segmentation topic model).
  • Тематические модели предложений (sentence topic model).

Аннотирование и суммаризация.

  • Аннотирование документа. Выделение тематичных слов и фраз (предложений). Оценка ценности фразы.
  • Суммаризация текстовой коллекции.
  • Суммаризация темы. Кластеризация и ранжирование тематичных фраз.
  • Автоматическое именование темы (topic labeling).

Инициализация, траектории регуляризации, адекватность модели

Презентация: (PDF, Х,Х МБ) — обновление ХХ.ХХ.2016.

Инициализация.

  • Случайная инициализация. Инициализация по документам.
  • Контекстная документная кластеризация.
  • Поиск якорных слов. Алгоритм Ароры.

Траектория регуляризации.

  • Задача оптимизации трактории в пространстве коэффициентов регуляризации.
  • Относительные коэффициенты регуляризации.
  • Пространство коэффициентов регуляризации и пространство метрик качества. Регрессионная связь между ними. Инкрементная регрессия.
  • Подходы к скаляризации критериев.
  • Обучение с подкреплением. Контекстный многорукий бандит. Верхние доверительные границы (UCB).

Тесты адекватности.

  • Статистические тесты условной независимости. Методология проверки статистических гипотез. Критерий согласия хи-квадрат Пирсона.
  • Проблема разреженности распределения. Эксперименты, показывающие неадекватность асимптотического распределения статистики хи-квадрат.
  • Статистики модифицированного хи-квадрат, Кульбака-Лейблера, Хеллингера.
  • Обобщённое семейство статистик Кресси-Рида.
  • Эмпирическое оценивание квантилей распределения статистики Кресси-Рида.
  • Применения теста условной независимости для поиска плохо смоделированных тем, документов, терминов. Поиск тем для расщепления.

Обзор оценок качества тематических моделей

Презентация: (PDF, Х,Х МБ) — обновление ХХ.ХХ.2016.

  • Внутренние и внешние критерии качества.
  • Перплексия и правдоподобие. Интерпретация перплекcии. Перплексия контрольной коллекции. Проблема новых слов в контрольной коллекции. Проблема сравнения моделей с разными словарями. Относительная перплексия.

Оценивание качества темы.

  • Лексическое ядро темы: множество типичных терминов темы.
  • Чистота и контрастность темы
  • Документное ядро темы: множество типичных документов темы.
  • Однородность темы: распределение расстояний между p(w|t) и p(w|t,d).
  • Конфликтность темы: близость темы к другим темам.
  • Интерпретируемость темы: экспертные оценки, метод интрузий, когерентность. Взрыв интерпретируемости в n-граммных моделях.

Устойчивость и полнота.

  • Эксперименты по оцениванию устойчивости, интерпретируемости и полноты.
  • Построение выпуклых оболочек тем и фильтрация зависимых тем в сериях тематических моделей.

Критерии качества классификации и ранжирования.

  • Полнота, точность и F-мера в задачах классификации и ранжирования.
  • Критерии качества ранжирования: MAP, DCG, NDCG.
  • Оценка качества тематического поиска документов по их длинным фрагментам.


Литература

Основная литература

  1. Воронцов К.В. Тематическое моделирование в BigARTM: теория, алгоритмы, приложения. Voron-2015-BigARTM.pdf.
  2. Воронцов К.В. Лекции по тематическому моделированию. Voron-2013-ptm.pdf.
  3. Vorontsov K. V., Potapenko A. A. Additive Regularization of Topic Models // Machine Learning. Special Issue “Data Analysis and Intelligent Optimization with Applications”: Volume 101, Issue 1 (2015), Pp. 303-323. Русский перевод

Дополнительная литература

  1. Воронцов К. В., Потапенко А. А. Модификации EM-алгоритма для вероятностного тематического моделирования // Машинное обучение и анализ данных. — 2013. — T. 1, № 6. — С. 657–686.
  2. Воронцов К. В., Фрей А. И., Ромов П. А., Янина А. О., Суворова М. А., Апишев М. А. BigARTM: библиотека с открытым кодом для тематического моделирования больших текстовых коллекций // Аналитика и управление данными в областях с интенсивным использованием данных. XVII Международная конференция DAMDID/RCDL’2015, Обнинск, 13-16 октября 2015.
  3. Маннинг К., Рагхаван П., Шютце Х. Введение в информационный поиск. — Вильямс, 2011.
  4. Asuncion A., Welling M., Smyth P., Teh Y. W. On smoothing and inference for topic models // Proceedings of the International Conference on Uncertainty in Artificial Intelligence. — 2009.
  5. Blei D. M., Ng A. Y., Jordan M. I. Latent Dirichlet allocation // Journal of Machine Learning Research. — 2003. — Vol. 3. — Pp. 993–1022.
  6. Chemudugunta C., Smyth P., Steyvers M. Modeling general and specific aspects of documents with a probabilistic topic model // Advances in Neural Information Processing Systems. — MIT Press, 2006. — Vol. 19. — Pp. 241–248.
  7. Daud A., Li J., Zhou L., Muhammad F. Knowledge discovery through directed probabilistic topic models: a survey // Frontiers of Computer Science in China.— 2010.— Vol. 4, no. 2. — Pp. 280–301.
  8. Dempster A. P., Laird N. M., Rubin D. B. Maximum likelihood from incomplete data via the EM algorithm // J. of the Royal Statistical Society, Series B. — 1977. — no. 34. — Pp. 1–38.
  9. Hofmann T. Probabilistic latent semantic indexing // Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval. — New York, NY, USA: ACM, 1999. — Pp. 50–57.
  10. Hoffman M. D., Blei D. M., Bach F. R. Online Learning for Latent Dirichlet Allocation // NIPS, 2010. Pp. 856–864.
  11. Lu Y., Mei Q., Zhai C. Investigating task performance of probabilistic topic models: an empirical study of PLSA and LDA // Information Retrieval. — 2011. — Vol.14, no.2. — Pp. 178–203.
  12. Vorontsov K. V., Frei O. I., Apishev M. A., Romov P. A., Suvorova M. A., Yanina A. O. Non-Bayesian Additive Regularization for Multimodal Topic Modeling of Large Collections // Proceedings of the 2015 Workshop on Topic Models: Post-Processing and Applications, October 19, 2015, Melbourne, Australia. ACM, New York, NY, USA. pp. 29–37.
  13. Wallach H., Mimno D., McCallum A. Rethinking LDA: Why priors matter // Advances in Neural Information Processing Systems 22 / Ed. by Y. Bengio, D. Schuurmans, J. Lafferty, C. K. I. Williams, A. Culotta. — 2009. — Pp. 1973–1981.

Ссылки

Подстраницы

Вероятностные тематические модели (курс лекций, К.В.Воронцов)/2015Вероятностные тематические модели (курс лекций, К.В.Воронцов)/2016Вероятностные тематические модели (курс лекций, К.В.Воронцов)/2017
Вероятностные тематические модели (курс лекций, К.В.Воронцов)/2018Вероятностные тематические модели (курс лекций, К.В.Воронцов)/2019, ВМКВероятностные тематические модели (курс лекций, К.В.Воронцов)/2020
Вероятностные тематические модели (курс лекций, К.В.Воронцов)/2021
Личные инструменты