Вероятностные тематические модели (курс лекций, К.В.Воронцов)

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
м
(переработка)
Строка 3: Строка 3:
Спецкурс читается студентам 2—5 курсов на кафедре «[[Математические методы прогнозирования (кафедра ВМиК МГУ)|Математические методы прогнозирования]]» [[ВМиК]] [[МГУ]] с 2013 года.
Спецкурс читается студентам 2—5 курсов на кафедре «[[Математические методы прогнозирования (кафедра ВМиК МГУ)|Математические методы прогнозирования]]» [[ВМиК]] [[МГУ]] с 2013 года.
-
В спецкурсе изучаются методы построения вероятностных тематических моделей (topic modeling) коллекций текстовых документов. Развивается многокритериальный подход к решению некорректно поставленной задачи стохастического матричного разложения — аддитивная регуляризации тематических моделей. Особое внимание будет уделяется комбинированию статистических и лингвистических методов анализа текстов. Рассматриваются прикладные задачи классификации и категоризации текстов, информационного поиска, персонализации и рекомендательных систем, а также задачи анализа и классификации дискретизированных биомедицинских сигналов. Предполагается проведение студентами численных экспериментов на модельных и реальных данных.
+
В спецкурсе изучается вероятностное тематическое моделирование (topic modeling) коллекций текстовых документов. Развивается многокритериальный подход к решению некорректно поставленной задачи стохастического матричного разложения — [[аддитивная регуляризация тематических моделей]]. Рассматриваются свойства интерпретируемости, устойчивости и полноты тематических моделей, а также способы их измерения. Рассматриваются прикладные задачи классификации и категоризации текстов, информационного поиска, персонализации и рекомендательных систем. Рассматриваются задачи анализа и классификации символьных последовательностей неязыковой природы, в частности, аминокислотных и нуклеотидных последовательностей, дискретизированных биомедицинских сигналов. Предполагается проведение студентами численных экспериментов на модельных и реальных данных.
-
От студентов требуются знания курсов линейной алгебры, математического анализа, теории вероятностей. Знание математической статистики, методов оптимизации и какого-либо языка программирования желательно, но не обязательно.
+
От студентов требуются знания курсов линейной алгебры, математического анализа, теории вероятностей. Знание математической статистики, методов оптимизации, машинного обучения, языков программирования Python и С++ желательно, но не обязательно.
Условием сдачи спецкурса является выполнение индивидуальных практических заданий.
Условием сдачи спецкурса является выполнение индивидуальных практических заданий.
-
* Файл с описанием заданий: [[Media:voron-2014-task-PTM.pdf|voron-2014-task-PTM.pdf]]
+
* Файл с описанием заданий: [[Media:voron-2016-task-PTM.pdf|voron-2016-task-PTM.pdf]]
Строка 19: Строка 19:
* Эмпирические законы Ципфа, Ципфа-Мандельброта, Хипса.
* Эмпирические законы Ципфа, Ципфа-Мандельброта, Хипса.
* Постановка задачи классификации текстов. Объекты, признаки, классы, обучающая выборка.
* Постановка задачи классификации текстов. Объекты, признаки, классы, обучающая выборка.
-
* Частоты слов (терминов) как признаки. Распознавание текстов заданной тематики. Анализ тональности.
 
* Линейный классификатор. Наивный байесовский классификатор.
* Линейный классификатор. Наивный байесовский классификатор.
-
* Задача распознавание жанра текстов. Распознавание научных текстов. Примеры признаков.
+
* Задача распознавания языка текста.
 +
* Задача распознавание жанра текста. Распознавание научных текстов. Примеры признаков.
* Задача категоризации текстов, сведение к последовательности задач классификации.
* Задача категоризации текстов, сведение к последовательности задач классификации.
 +
* Задача анализа тональности.
'''Задачи предварительной обработки текстов.'''
'''Задачи предварительной обработки текстов.'''
-
* Очистка, удаление номеров страниц (колонтитулов), переносов, опечаток, оглавлений, таблиц, рисунков, нетекстовой информации.
+
* Очистка: удаление номеров страниц (колонтитулов), переносов, опечаток, оглавлений, таблиц, рисунков, нетекстовой информации.
* Лемматизация и стемминг. Сравнение готовых инструментальных средств.
* Лемматизация и стемминг. Сравнение готовых инструментальных средств.
* Выделение и удаление стоп-слов и редких слов.
* Выделение и удаление стоп-слов и редких слов.
Строка 31: Строка 32:
'''Задачи информационного поиска.'''
'''Задачи информационного поиска.'''
* Задача поиска документов по запросу. Инвертированный индекс.
* Задача поиска документов по запросу. Инвертированный индекс.
-
* Меры сходства векторов частот. Косинусная мера сходства. Расстояние Хеллингера.
+
* Меры сходства векторов частот. Косинусная мера сходства. Расстояние Хеллингера.
 +
* Дивергенция Кульбака-Леблера и её свойства. Дивергенция Кресси-Рида.
* Критерий текстовой релевантности TF-IDF. Вероятностная модель и вывод формулы TF-IDF.
* Критерий текстовой релевантности TF-IDF. Вероятностная модель и вывод формулы TF-IDF.
* Задача ранжирования. Примеры признаков. Формирование асессорских обучающих выборок.
* Задача ранжирования. Примеры признаков. Формирование асессорских обучающих выборок.
Строка 48: Строка 50:
'''Мотивации вероятностного тематического моделирования
'''Мотивации вероятностного тематического моделирования
-
* Идея перехода от вектора (терминов) к вектору тем.
+
* Идея понижения размерности: переход от вектора (терминов) к вектору тем.
-
* Цели тематического моделирования: поиск научной информации, агрегирование и анализ новостных потоков, формирование сжатых признаковых описаний документов для классификации и категоризации текстовых документов, обход проблем синонимии и омонимии.
+
* Цели тематического моделирования: разведочный поиск научной информации, навигация и систематизация, агрегирование новостных потоков, классификация и категоризация текстов, обход проблем синонимии и омонимии.
'''Задача тематического моделирования.'''
'''Задача тематического моделирования.'''
Строка 56: Строка 58:
'''Вероятностный латентный семантический анализ (PLSA).'''
'''Вероятностный латентный семантический анализ (PLSA).'''
-
* Частотные оценки условных вероятностей терминов тем и тем документов. Формула Байеса для апостериорной вероятности темы. Элементарное обоснование ЕМ-алгоритма.
 
* Принцип максимума правдоподобия, аналитическое решение задачи о стационарной точке функции Лагранжа, формулы M-шага.
* Принцип максимума правдоподобия, аналитическое решение задачи о стационарной точке функции Лагранжа, формулы M-шага.
 +
* Элементарная интерпретация ЕМ-алгоритма: Е-шаг как формула Байеса для апостериорной вероятности темы, М-шаг как частотные оценки условных вероятностей.
* Рациональный ЕМ-алгоритм (встраивание Е-шага внутрь М-шага).
* Рациональный ЕМ-алгоритм (встраивание Е-шага внутрь М-шага).
 +
 +
'''Онлайновый ЕМ-алгоритм (OEM).'''
 +
* Проблема больших данных.
 +
* Эвристика разделения М-шага.
 +
* Эвристика разделения коллекции на пачки документов.
 +
* Добавление новых документов (folding-in).
'''Проведение экспериментов на модельных данных.'''
'''Проведение экспериментов на модельных данных.'''
Строка 74: Строка 82:
# Исследовать влияние случайного начального приближения на устойчивость решения. Построить эмпирические распределения и доверительные интервалы для расстояний Хеллингера между истинными матрицами и восстановленными.
# Исследовать влияние случайного начального приближения на устойчивость решения. Построить эмпирические распределения и доверительные интервалы для расстояний Хеллингера между истинными матрицами и восстановленными.
# Исследовать влияние разреженности матриц Фи и Тета на устойчивость решения.
# Исследовать влияние разреженности матриц Фи и Тета на устойчивость решения.
 +
# Исследовать полноту решения. Сколько запусков со случайным начальным приближением необходимо сделать, чтобы найти все исходные темы? Как различность и разреженность исходных тем влияет на полноту?
'''Литература:''' [Hofmann 1999].
'''Литература:''' [Hofmann 1999].
-
===Модификации алгоритма обучения модели PLSA===
+
===Латентное размещение Дирихле===
-
 
+
* ''Напоминания.'' Задача тематического моделирования коллекции текстовых документов. Модель PLSA, формулы Е-шага и М-шага.
* ''Напоминания.'' Задача тематического моделирования коллекции текстовых документов. Модель PLSA, формулы Е-шага и М-шага.
'''Латентное размещение Дирихле (LDA)'''
'''Латентное размещение Дирихле (LDA)'''
-
* Сглаженные байесовские оценки условных вероятностей.
+
* Свойства [[Распределение Дирихле|распределения Дирихле]].
-
 
+
* Принцип максимума апостериорной вероятности. Модифицированные формулы М-шага.
-
'''Робастный ЕМ-алгоритм (REM).'''
+
* [[Байесовский вывод]]. Свойство сопряжённости мультиномиального распределения и распределения Дирихле. Другие модифицированные формулы М-шага.
-
* Робастная модель с шумом и фоном.
+
* Обзор модификаций формул М-шага.
-
* Упрощённая робастная модель.
+
* Методы оптимизации гиперпараметров.
 +
* Небайесовская интерпретация модели LDA.
 +
* Сравнение LDA и PLSA. Экспериментальные факты: LDA скорее улучшает оценки редких слов, чем снижает переобучение.
'''Стохастический ЕМ-алгоритм (SEM).'''
'''Стохастический ЕМ-алгоритм (SEM).'''
* Гипотеза разреженности апоcтериорного распределения тем p(t|d,w).
* Гипотеза разреженности апоcтериорного распределения тем p(t|d,w).
-
* Алгоритм сэмплирования Гиббса.
+
* Эвристика сэмплирования. Алгоритм сэмплирования Гиббса.
-
 
+
-
'''Онлайновый ЕМ-алгоритм (OEM).'''
+
-
* Проблема больших данных.
+
-
* Эвристика разделения М-шага.
+
-
* Эвристика разделения коллекции на пачки документов.
+
-
* Добавление новых документов (folding-in).
+
'''Способы формирования начальных приближений.'''
'''Способы формирования начальных приближений.'''
* Случайная инициализация.
* Случайная инициализация.
* Инициализация по документам.
* Инициализация по документам.
 +
* Контекстная документная кластеризация.
* Поиск якорных слов. Алгоритм Ароры.
* Поиск якорных слов. Алгоритм Ароры.
Строка 108: Строка 113:
# Исследовать влияние размера первой пачки и последующих пачек на качество модели.
# Исследовать влияние размера первой пачки и последующих пачек на качество модели.
# Исследовать влияние выбора числа итераций на внутреннем и внешнем циклах алгоритма OEM на качество и скорость построения модели.
# Исследовать влияние выбора числа итераций на внутреннем и внешнем циклах алгоритма OEM на качество и скорость построения модели.
-
# Исследовать возможность улучшения качество модели с помощью второго прохода по коллекции (без инициализации p(w|t)).
+
# Исследовать возможность улучшения качества модели с помощью второго прохода по коллекции (без инициализации p(w|t)).
-
# Исследовать влияние частичной разметки на точность модели и точность восстановления. Проверить гипотезу, что небольшой доли правильно размеченных документов уже достаточно для существенного улучшения точности и устойчивости модели.
+
# Исследовать влияние гиперпараметров на правдоподобие модели и точность восстановления.
-
'''Литература:''' [Hoffman 2010, Asuncion 2009].
+
'''Литература:''' [Hoffman 2010], [Asuncion 2009].
===Аддитивная регуляризация тематических моделей===
===Аддитивная регуляризация тематических моделей===
* ''Напоминания''. Вероятностная тематическая модель. Принцип максимума правдоподобия. PLSA. EM-алгоритм.
* ''Напоминания''. Вероятностная тематическая модель. Принцип максимума правдоподобия. PLSA. EM-алгоритм.
-
* ''Ликбез''. KL-дивергенция.
 
'''Многокритериальная регуляризация.'''
'''Многокритериальная регуляризация.'''
Строка 122: Строка 126:
* Общая формула M-шага для регуляризованного ЕМ-алгоритма.
* Общая формула M-шага для регуляризованного ЕМ-алгоритма.
-
'''Регуляризатор разреживания.'''
+
'''Регуляризаторы сглаживания и разреживания.'''
-
* Гипотеза разреженности распределений терминов тем и тем документов.
+
* Максимизация и минимизация KL-дивергенции.
-
* Энтропийный регуляризатор и максимизация KL-дивергенции.
+
* Альтернативный вариант разреживания через L0-регуляризацию.
-
* Связь разреживания с L0-регуляризацией и методом разреживания нейронных сетей [[OBD|Optimal Brain Damage]].
+
* Связь разреженности и единственности неотрицательного матричного разложения.
* Связь разреженности и единственности неотрицательного матричного разложения.
 +
* Разреживание предметных тем и сглаживание фоновых тем. Автоматическое выделение стоп-слов.
-
'''Регуляризатор сглаживания.'''
+
'''Робастные тематические модели.'''
-
* Модель латентного размещения Дирихле LDA.
+
* Робастная модель с фоном и шумом.
-
* Обоснование LDA через минимизацию KL–дивергенции. Виды сглаживающих распределений.
+
* Упрощённая робастная модель.
-
* Свойства распределения Дирихле, сопряжённость с мультиномиальным распределением.
+
* Эффект повышения правдоподобия (перплексии) в робастных моделях с шумом.
-
* Байесовский вывод. Сглаженные частотные оценки условных вероятностей.
+
-
* Оценки максимума апостериорной вероятности.
+
-
* Численные методы оптимизации гиперпараметров.
+
-
'''Комбинирование разреживания и сглаживания.'''
+
'''Регуляризаторы частичного обучения.'''
-
* Разреживание предметных тем и сглаживание фоновых тем. Автоматическое выделение стоп-слов.
+
* Частичное обучение как выборочное сглаживание.
-
* Частичное обучение как выборочное сглаживание.
+
* Сфокусированные тематические модели. Использование словаря для выделения предметных тем.
 +
* Пример: выделение тематики эпидемий, этнических конфликтов.
'''Ковариационные регуляризаторы.'''
'''Ковариационные регуляризаторы.'''
-
* Антиковариация тем.
+
* Дековариация тем.
-
* Выявление корреляций между темами, модель CTM. Оценивание параметров модели (матрицы ковариаций).
+
-
* Корреляция документов.
+
* Тематические модели цитирования.
* Тематические модели цитирования.
-
 
+
* Задача выявления корреляций между темами, модель CTM.
-
===Разреживание и сглаживание===
+
* Оценивание параметров (матрицы ковариаций) в модели CTM.
-
 
+
-
'''Сглаживание'''
+
-
* Сравнение LDA и PLSA. Экспериментальные факты: LDA скорее улучшает оценки редких слов, чем снижает переобучение.
+
-
* Дилемма разреживания и сглаживания.
+
-
 
+
-
'''Частичное обучение (Semi-supervised EM).'''
+
-
* Виды частично размеченных данных: привязка документа к темам, привязка термина к темам, нерелевантность, переранжирование списков терминов тем и тем документов, виртуальные документы.
+
-
* Использование частично размеченных данных для инициализации.
+
-
* Использование частично размеченных данных в качестве поправок на М-шаге ЕМ-алгоритма.
+
'''Задание 1.3'''
'''Задание 1.3'''
Обязательные пункты: 1 и любой из остальных.
Обязательные пункты: 1 и любой из остальных.
# Реализовать разреживание в онлайновом алгоритме OEM.
# Реализовать разреживание в онлайновом алгоритме OEM.
-
# Исследовать зависимость точности модели и точности восстановления от степени разреженности исходных модельных данных.
+
# Исследовать зависимость правдоподобия модели и точности восстановления от степени разреженности исходных модельных данных.
-
# Исследовать влияние разреживания на точность модели и точность восстановления. Проверить гипотезу, что если исходные данные разрежены, то разреживание существенно улучшает точность восстановления и слабо влияет на точность модели.
+
# Исследовать влияние разреживания на правдоподобие модели и точность восстановления. Проверить гипотезу, что если исходные данные разрежены, то разреживание существенно улучшает точность восстановления и слабо влияет на правдоподобие модели.
-
# Исследовать влияние сглаживания на точность модели и точность восстановления.
+
# Исследовать влияние частичной разметки на правдоподобие модели и точность восстановления. Проверить гипотезу, что небольшой доли правильно размеченных документов уже достаточно для существенного улучшения правдоподобия и устойчивости модели.
 +
# Исследовать влияние сглаживания на правдоподобие модели и точность восстановления.
-
'''Литература:''' [Blei, 2003].
+
'''Литература:''' [Воронцов, 2013, 2015], [Chemudugunta, 2006].
-
===Внутренние методы оценивания качества===
+
===Оценивание качества тематических моделей===
'''Реальные данные.'''
'''Реальные данные.'''
Строка 175: Строка 167:
'''Перплексия и правдоподобие.'''
'''Перплексия и правдоподобие.'''
* Определение и интерпретация перплекcии.
* Определение и интерпретация перплекcии.
-
* Перплексия контрольной коллекции. Проблема новых слов в контрольной коллекции.
+
* Перплексия контрольной коллекции. Проблема новых слов в контрольной коллекции.
-
 
+
* Проблема сравнения моделей с разными словарями.
-
'''Когерентность.'''
+
* Относительная перплексия.
-
* Определение когерентности.
+
-
* Эксперименты, показывающие связь когерентности и интерпретируемости.
+
-
* Способы оценивания совместной встречаемости слов.
+
''' Оценивание качества темы.'''
''' Оценивание качества темы.'''
-
* Контрастность темы (число типичных документов темы, число типичных терминов темы).
+
* Лексическое ядро темы: множество типичных терминов темы.
-
* Пиковость темы.
+
* Чистота и контрастность темы
-
* Однородность (радиус) темы.
+
* Документное ядро темы: множество типичных документов темы.
-
* Конфликтность темы (близость темы к другим темам).
+
* Однородность темы: распределение расстояний между p(w|t) и p(w|t,d).
 +
* Конфликтность темы: близость темы к другим темам.
'''Статистические тесты условной независимости.'''
'''Статистические тесты условной независимости.'''
-
* Методология проверки статистических гипотез. Критерий согласия хи-квадрат Пирсона. Матрица кросс-табуляции «термины–документы» для заданной темы.
+
* Методология проверки статистических гипотез. Критерий согласия хи-квадрат Пирсона.
* Проблема разреженности распределения. Эксперименты, показывающие неадекватность асимптотического распределения статистики хи-квадрат.
* Проблема разреженности распределения. Эксперименты, показывающие неадекватность асимптотического распределения статистики хи-квадрат.
* Статистики модифицированного хи-квадрат, Кульбака-Лейблера, Хеллингера.
* Статистики модифицированного хи-квадрат, Кульбака-Лейблера, Хеллингера.
* Обобщённое семейство статистик Кресси-Рида.
* Обобщённое семейство статистик Кресси-Рида.
-
* Алгоритм вычисления квантилей распределения статистики Кресси-Рида.
+
* Эмпирическое оценивание квантилей распределения статистики Кресси-Рида.
-
* Рекуррентное вычисление статистики Кресси-Рида.
+
* Применения теста условной независимости для поиска плохо смоделированных тем, документов, терминов. Поиск тем для расщепления.
'''Литература:''' [Newman, 2009–2011].
'''Литература:''' [Newman, 2009–2011].
-
===Внешние методы оценивания качества===
+
===Внешние оценки качества тематических моделей===
-
'''Оценивание интерпретируемости тематических моделей.'''
+
'''Оценивание интерпретируемости тем.'''
-
* Корректность определения асессорами лишних терминов в темах и лишних тем в документах.
+
* Экспертное оценивание интерпретируемости.
-
* Визуализация тематических моделей.
+
* Асессорская разметка терминов и документов, релевантных теме.
 +
* Метод интрузий.
 +
* Радикальное улучшение интерпретируемости в n-граммных тематических моделях.
 +
 
 +
'''Когерентность.'''
 +
* Определение когерентности.
 +
* Эксперименты, показывающие связь когерентности и интерпретируемости.
 +
* Способы оценивания совместной встречаемости слов.
 +
 
 +
'''Суммаризация темы.'''
 +
* Проблема визуализации тем.
 +
* Выделение тематичных слов и предложений.
 +
* Кластеризация тематичных предложений.
 +
* Ранжирование тематичных предложений.
 +
* Асессорская разметка предложений, релевантных теме.
'''Критерии качества классификации и ранжирования.'''
'''Критерии качества классификации и ранжирования.'''
Строка 214: Строка 218:
# В экспериментах на реальных данных построить зависимости перплексии обучающей и контрольной коллекции от числа итераций и числа тем.
# В экспериментах на реальных данных построить зависимости перплексии обучающей и контрольной коллекции от числа итераций и числа тем.
-
'''Литература:''' [Blei, 2003].
+
'''Литература:'''
-
===Робастные тематические модели===
+
===Определение числа тем и иерархические модели===
-
''Робастность'' — устойчивость модели к нарушениям исходных предпосылок, заложенных в основу модели.
+
-
'''Робастная тематическая модель с фоном и шумом'''
 
-
* Аналитическое решение задачи о стационарной точке функции Лагранжа, формулы M-шага.
 
-
* Аддитивный и мультипликативный М-шаг.
 
-
* Оценки тематичности слов.
 
-
* Эксперименты: робастная модель не нуждается в регуляризации и более устойчива к разреживанию.
 
-
'''Разреженная робастная тематическая модель с шумом'''
+
'''Литература:''' .
-
* Максимизация правдоподобия для упрощённой робастной модели.
+
-
* Вычисление перплексии для упрощённой робастной модели.
+
-
 
+
-
'''Робастная тематическая модель с усечёнными распределениями'''
+
-
* Явления синонимии, взаимной заменяемости терминов, эффект burstiness.
+
-
* Гипотеза об усечённых распределениях терминов тем в документах как ослабление гипотезы условной независимости.
+
-
* Аналитическое решение задачи о стационарной точке функции Лагранжа. Модификация ЕМ-алгоритма.
+
-
 
+
-
'''Задание 1.5'''
+
-
Обязательные пункты: 1,2 и любой из остальных.
+
-
# Реализовать генерацию модельных данных с фоном и шумом.
+
-
# Реализовать робастный алгоритм OEM.
+
-
# Исследовать зависимость точности робастной модели и точности восстановления от параметров априорной вероятности фона и шума. Что происходит с точностью модели, когда эти параметры «плохо угаданы»?
+
-
# Исследовать возможность оптимизации параметров априорной вероятности шума и фона.
+
-
# Исследовать зависимость перплексии и качества поиска от априорной вероятности шума.
+
-
# Исследовать влияние разреживания тематической компоненты робастной модели на перплексию и качество поиска.
+
-
 
+
-
'''Литература:''' [Chemudugunta, 2006].
+
Строка 323: Строка 303:
==Литература==
==Литература==
'''Основная литература'''
'''Основная литература'''
-
 
+
# Vorontsov K. V., Potapenko A. A. [[Media:Voron14mlj.pdf|Additive Regularization of Topic Models]] // Machine Learning. Special Issue “Data Analysis and Intelligent Optimization with Applications”: Volume 101, Issue 1 (2015), Pp. 303-323. [[Media:Voron14mlj-rus.pdf|Русский перевод]]
 +
# Vorontsov K. V., Frei O. I., Apishev M. A., Romov P. A., Suvorova M. A., Yanina A. O. [[Media:Voron15cikm-tm.pdf|Non-Bayesian Additive Regularization for Multimodal Topic Modeling of Large Collections]] // Proceedings of the 2015 Workshop on Topic Models: Post-Processing and Applications, October 19, 2015, Melbourne, Australia. ACM, New York, NY, USA. pp. 29–37.
# Маннинг К., Рагхаван П., Шютце Х. Введение в информационный поиск. — Вильямс, 2011.
# Маннинг К., Рагхаван П., Шютце Х. Введение в информационный поиск. — Вильямс, 2011.
# Daud A., Li J., Zhou L., Muhammad F. Knowledge discovery through directed probabilistic topic models: a survey // Frontiers of Computer Science in China.— 2010.— Vol. 4, no. 2. — Pp. 280–301.
# Daud A., Li J., Zhou L., Muhammad F. Knowledge discovery through directed probabilistic topic models: a survey // Frontiers of Computer Science in China.— 2010.— Vol. 4, no. 2. — Pp. 280–301.
Строка 329: Строка 310:
'''Дополнительная литература'''
'''Дополнительная литература'''
-
# Воронцов К. В., Потапенко А. А. Регуляризация, робастность и разреженность вероятностных тематических моделей // Компьютерные исследования и моделирование 2012 Т. 4, №12. С 693–706.
+
# Воронцов К. В., Потапенко А. А. [http://jmlda.org/papers/doc/2013/no6/Vorontsov2013TopicModeling.pdf Модификации EM-алгоритма для вероятностного тематического моделирования] // Машинное обучение и анализ данных. — 2013. — T. 1, № 6. С. 657–686.
-
# Vorontsov K. V., Potapenko A. A. Tutorial on Probabilistic Topic Modeling: Additive Regularization for Stochastic Matrix Factorization // AIST'2014, Analysis of Images, Social networks and Texts. — Lecture Notes in Computer Science (LNCS), Springer Verlag-Germany, 2014, Vol. CCIS 439. Pp. 28–45.
+
# Воронцов К. В., Фрей А. И., Ромов П. А., Янина А. О., Суворова М. А., Апишев М. А. [[Media:Voron15damdid.pdf|BigARTM: библиотека с открытым кодом для тематического моделирования больших текстовых коллекций]] // Аналитика и управление данными в областях с интенсивным использованием данных. XVII Международная конференция DAMDID/RCDL’2015, Обнинск, 13-16 октября 2015.
-
# Vorontsov K. V., Potapenko A. A. Additive Regularization of Topic Models // Machine Learning Journal, Special Issue «Data Analysis and Intelligent Optimization», Springer, 2014.
+
# Blei D. M., Ng A. Y., Jordan M. I. Latent Dirichlet allocation // Journal of Machine Learning Research. — 2003. — Vol. 3. — Pp. 993–1022.
# Blei D. M., Ng A. Y., Jordan M. I. Latent Dirichlet allocation // Journal of Machine Learning Research. — 2003. — Vol. 3. — Pp. 993–1022.
# Chemudugunta C., Smyth P., Steyvers M. Modeling general and specific aspects of documents with a probabilistic topic model // Advances in Neural Information Processing Systems. — MIT Press, 2006. — Vol. 19. — Pp. 241–248.
# Chemudugunta C., Smyth P., Steyvers M. Modeling general and specific aspects of documents with a probabilistic topic model // Advances in Neural Information Processing Systems. — MIT Press, 2006. — Vol. 19. — Pp. 241–248.
Строка 339: Строка 319:
# Lu Y., Mei Q., Zhai C. Investigating task performance of probabilistic topic models: an empirical study of PLSA and LDA // Information Retrieval. — 2011. — Vol.14, no.2. — Pp. 178–203.
# Lu Y., Mei Q., Zhai C. Investigating task performance of probabilistic topic models: an empirical study of PLSA and LDA // Information Retrieval. — 2011. — Vol.14, no.2. — Pp. 178–203.
# Wallach H., Mimno D., McCallum A. Rethinking LDA: Why priors matter // Advances in Neural Information Processing Systems 22 / Ed. by Y. Bengio, D. Schuurmans, J. Lafferty, C. K. I. Williams, A. Culotta. — 2009. — Pp. 1973–1981.
# Wallach H., Mimno D., McCallum A. Rethinking LDA: Why priors matter // Advances in Neural Information Processing Systems 22 / Ed. by Y. Bengio, D. Schuurmans, J. Lafferty, C. K. I. Williams, A. Culotta. — 2009. — Pp. 1973–1981.
-
# Zavitsanos E., Paliouras G., Vouros G. A. Non-parametric estimation of topic hierarchies from texts with hierarchical Dirichlet processes // Journal of Machine Learning Research. — 2011. — Vol. 12. — Pp. 2749–2775.
 
== Ссылки ==
== Ссылки ==
* [[Тематическое моделирование]]
* [[Тематическое моделирование]]
 +
* [[Аддитивная регуляризация тематических моделей]]
 +
* [[Коллекции документов для тематического моделирования]]
 +
* [[BigARTM]]
* Конспект лекций: [[Media:Voron-2013-ptm.pdf|Voron-2013-ptm.pdf, 2.6 МБ]] {{важно|(обновление 16 октября 2013)}}.
* Конспект лекций: [[Media:Voron-2013-ptm.pdf|Voron-2013-ptm.pdf, 2.6 МБ]] {{важно|(обновление 16 октября 2013)}}.
-
* Презентация доклада на семинаре в [http://www2.viniti.ru ВИНИТИ РАН], 23 апреля 2013. '''[[Media:voron-viniti-23apr2013.pdf|(PDF, 2.0 МБ)]]'''.
+
* BigARTM: тематическое моделирование больших текстовых коллекций. [http://www.meetup.com/Moscow-Data-Fest/events/224856462/ Data Fest #1], 12 сентября 2015. '''[[Media:voron-2015-datafest.pdf|(PDF, 6.5 МБ)]]'''.
-
 
+
-
== См. также ==
+
-
* [[Коллекции документов для тематического моделирования]]
+
{{Stub}}
{{Stub}}
[[Категория:Учебные курсы]]
[[Категория:Учебные курсы]]

Версия 16:39, 22 декабря 2015

Содержание

Спецкурс читается студентам 2—5 курсов на кафедре «Математические методы прогнозирования» ВМиК МГУ с 2013 года.

В спецкурсе изучается вероятностное тематическое моделирование (topic modeling) коллекций текстовых документов. Развивается многокритериальный подход к решению некорректно поставленной задачи стохастического матричного разложения — аддитивная регуляризация тематических моделей. Рассматриваются свойства интерпретируемости, устойчивости и полноты тематических моделей, а также способы их измерения. Рассматриваются прикладные задачи классификации и категоризации текстов, информационного поиска, персонализации и рекомендательных систем. Рассматриваются задачи анализа и классификации символьных последовательностей неязыковой природы, в частности, аминокислотных и нуклеотидных последовательностей, дискретизированных биомедицинских сигналов. Предполагается проведение студентами численных экспериментов на модельных и реальных данных.

От студентов требуются знания курсов линейной алгебры, математического анализа, теории вероятностей. Знание математической статистики, методов оптимизации, машинного обучения, языков программирования Python и С++ желательно, но не обязательно.

Условием сдачи спецкурса является выполнение индивидуальных практических заданий.


Программа курса

Задачи анализа текстов. Вероятностные модели коллекций текстов

Задачи классификации текстов.

  • Коллекция текстовых документов. Векторное представление документа.
  • Эмпирические законы Ципфа, Ципфа-Мандельброта, Хипса.
  • Постановка задачи классификации текстов. Объекты, признаки, классы, обучающая выборка.
  • Линейный классификатор. Наивный байесовский классификатор.
  • Задача распознавания языка текста.
  • Задача распознавание жанра текста. Распознавание научных текстов. Примеры признаков.
  • Задача категоризации текстов, сведение к последовательности задач классификации.
  • Задача анализа тональности.

Задачи предварительной обработки текстов.

  • Очистка: удаление номеров страниц (колонтитулов), переносов, опечаток, оглавлений, таблиц, рисунков, нетекстовой информации.
  • Лемматизация и стемминг. Сравнение готовых инструментальных средств.
  • Выделение и удаление стоп-слов и редких слов.

Задачи информационного поиска.

  • Задача поиска документов по запросу. Инвертированный индекс.
  • Меры сходства векторов частот. Косинусная мера сходства. Расстояние Хеллингера.
  • Дивергенция Кульбака-Леблера и её свойства. Дивергенция Кресси-Рида.
  • Критерий текстовой релевантности TF-IDF. Вероятностная модель и вывод формулы TF-IDF.
  • Задача ранжирования. Примеры признаков. Формирование асессорских обучающих выборок.

Униграммная модель документов и коллекции.

  • Вероятностное пространство. Гипотезы «мешка слов» и «мешка документов». Текст как простая выборка, порождаемая вероятностным распределением. Векторное представление документа как эмпирическое распределение.
  • Понятие параметрической порождающей модели. Принцип максимума правдоподобия.
  • Униграммная модель документов и коллекции.
  • Ликбез. Теорема Куна-Таккера.
  • Аналитическое решение задачи о стационарной точке функции Лагранжа. Частотные оценки условных вероятностей.

Литература: [Маннинг 2011].

Вероятностный латентный семантический анализ

  • Напоминания. Коллекция текстовых документов. Векторное представление документа. Задачи информационного поиска и классификации текстов.

Мотивации вероятностного тематического моделирования

  • Идея понижения размерности: переход от вектора (терминов) к вектору тем.
  • Цели тематического моделирования: разведочный поиск научной информации, навигация и систематизация, агрегирование новостных потоков, классификация и категоризация текстов, обход проблем синонимии и омонимии.

Задача тематического моделирования.

  • Вероятностное пространство. Тема как латентная (ненаблюдаемая) переменная. Гипотеза условной независимости. Порождающая модель документа как вероятностной смеси тем.
  • Постановка обратной задачи восстановления параметров модели по данным.

Вероятностный латентный семантический анализ (PLSA).

  • Принцип максимума правдоподобия, аналитическое решение задачи о стационарной точке функции Лагранжа, формулы M-шага.
  • Элементарная интерпретация ЕМ-алгоритма: Е-шаг как формула Байеса для апостериорной вероятности темы, М-шаг как частотные оценки условных вероятностей.
  • Рациональный ЕМ-алгоритм (встраивание Е-шага внутрь М-шага).

Онлайновый ЕМ-алгоритм (OEM).

  • Проблема больших данных.
  • Эвристика разделения М-шага.
  • Эвристика разделения коллекции на пачки документов.
  • Добавление новых документов (folding-in).

Проведение экспериментов на модельных данных.

  • Процесс порождения терминов в документе. Генератор модельных (синтетических) данных. Генерация случайной величины из заданного дискретного распределения.
  • Распределение Дирихле. Генерация разреженных и сглаженных векторов дискретных распределений из распределения Дирихле.
  • Оценивание точности восстановления модельных данных. Расстояние между дискретными распределениями. Проблема перестановки тем, венгерский алгоритм.
  • Проблема неединственности и неустойчивости матричного разложения. Экспериментальное оценивание устойчивости решения.

Задание 1.1 Обязательные пункты: 1–3 и любой из последующих.

  1. Реализовать генератор модельных данных. Реализовать вычисление эмпирических распределений терминов тем и тем документов.
  2. Реализовать оценку точности восстановления с учётом перестановки тем. Вычислить оценку точности для исходных модельных распределений.
  3. Реализовать рациональный ЕМ-алгоритм.
  4. Исследовать зависимости точности модели и точности восстановления от числа итераций и от числа тем в модели (при фиксированном числе тем в исходных данных). Что происходит, когда тем больше, чем нужно? Меньше, чем нужно?
  5. Исследовать влияние случайного начального приближения на устойчивость решения. Построить эмпирические распределения и доверительные интервалы для расстояний Хеллингера между истинными матрицами и восстановленными.
  6. Исследовать влияние разреженности матриц Фи и Тета на устойчивость решения.
  7. Исследовать полноту решения. Сколько запусков со случайным начальным приближением необходимо сделать, чтобы найти все исходные темы? Как различность и разреженность исходных тем влияет на полноту?

Литература: [Hofmann 1999].

Латентное размещение Дирихле

  • Напоминания. Задача тематического моделирования коллекции текстовых документов. Модель PLSA, формулы Е-шага и М-шага.

Латентное размещение Дирихле (LDA)

  • Свойства распределения Дирихле.
  • Принцип максимума апостериорной вероятности. Модифицированные формулы М-шага.
  • Байесовский вывод. Свойство сопряжённости мультиномиального распределения и распределения Дирихле. Другие модифицированные формулы М-шага.
  • Обзор модификаций формул М-шага.
  • Методы оптимизации гиперпараметров.
  • Небайесовская интерпретация модели LDA.
  • Сравнение LDA и PLSA. Экспериментальные факты: LDA скорее улучшает оценки редких слов, чем снижает переобучение.

Стохастический ЕМ-алгоритм (SEM).

  • Гипотеза разреженности апоcтериорного распределения тем p(t|d,w).
  • Эвристика сэмплирования. Алгоритм сэмплирования Гиббса.

Способы формирования начальных приближений.

  • Случайная инициализация.
  • Инициализация по документам.
  • Контекстная документная кластеризация.
  • Поиск якорных слов. Алгоритм Ароры.

Задание 1.2 Обязательные пункты: 1 и любой из последующих.

  1. Реализовать онлайновый алгоритм OEM.
  2. Исследовать влияние размера первой пачки и последующих пачек на качество модели.
  3. Исследовать влияние выбора числа итераций на внутреннем и внешнем циклах алгоритма OEM на качество и скорость построения модели.
  4. Исследовать возможность улучшения качества модели с помощью второго прохода по коллекции (без инициализации p(w|t)).
  5. Исследовать влияние гиперпараметров на правдоподобие модели и точность восстановления.

Литература: [Hoffman 2010], [Asuncion 2009].

Аддитивная регуляризация тематических моделей

  • Напоминания. Вероятностная тематическая модель. Принцип максимума правдоподобия. PLSA. EM-алгоритм.

Многокритериальная регуляризация.

  • Некорректность постановки задачи тематического моделирования.
  • Аддитивная регуляризация.
  • Общая формула M-шага для регуляризованного ЕМ-алгоритма.

Регуляризаторы сглаживания и разреживания.

  • Максимизация и минимизация KL-дивергенции.
  • Альтернативный вариант разреживания через L0-регуляризацию.
  • Связь разреженности и единственности неотрицательного матричного разложения.
  • Разреживание предметных тем и сглаживание фоновых тем. Автоматическое выделение стоп-слов.

Робастные тематические модели.

  • Робастная модель с фоном и шумом.
  • Упрощённая робастная модель.
  • Эффект повышения правдоподобия (перплексии) в робастных моделях с шумом.

Регуляризаторы частичного обучения.

  • Частичное обучение как выборочное сглаживание.
  • Сфокусированные тематические модели. Использование словаря для выделения предметных тем.
  • Пример: выделение тематики эпидемий, этнических конфликтов.

Ковариационные регуляризаторы.

  • Дековариация тем.
  • Тематические модели цитирования.
  • Задача выявления корреляций между темами, модель CTM.
  • Оценивание параметров (матрицы ковариаций) в модели CTM.

Задание 1.3 Обязательные пункты: 1 и любой из остальных.

  1. Реализовать разреживание в онлайновом алгоритме OEM.
  2. Исследовать зависимость правдоподобия модели и точности восстановления от степени разреженности исходных модельных данных.
  3. Исследовать влияние разреживания на правдоподобие модели и точность восстановления. Проверить гипотезу, что если исходные данные разрежены, то разреживание существенно улучшает точность восстановления и слабо влияет на правдоподобие модели.
  4. Исследовать влияние частичной разметки на правдоподобие модели и точность восстановления. Проверить гипотезу, что небольшой доли правильно размеченных документов уже достаточно для существенного улучшения правдоподобия и устойчивости модели.
  5. Исследовать влияние сглаживания на правдоподобие модели и точность восстановления.

Литература: [Воронцов, 2013, 2015], [Chemudugunta, 2006].

Оценивание качества тематических моделей

Реальные данные.

  • Текстовые коллекции, библиотеки алгоритмов, источники информации.
  • Внутренние и внешние критерии качества.
  • Дополнительные данные для построения внешних критериев качества.

Перплексия и правдоподобие.

  • Определение и интерпретация перплекcии.
  • Перплексия контрольной коллекции. Проблема новых слов в контрольной коллекции.
  • Проблема сравнения моделей с разными словарями.
  • Относительная перплексия.

Оценивание качества темы.

  • Лексическое ядро темы: множество типичных терминов темы.
  • Чистота и контрастность темы
  • Документное ядро темы: множество типичных документов темы.
  • Однородность темы: распределение расстояний между p(w|t) и p(w|t,d).
  • Конфликтность темы: близость темы к другим темам.

Статистические тесты условной независимости.

  • Методология проверки статистических гипотез. Критерий согласия хи-квадрат Пирсона.
  • Проблема разреженности распределения. Эксперименты, показывающие неадекватность асимптотического распределения статистики хи-квадрат.
  • Статистики модифицированного хи-квадрат, Кульбака-Лейблера, Хеллингера.
  • Обобщённое семейство статистик Кресси-Рида.
  • Эмпирическое оценивание квантилей распределения статистики Кресси-Рида.
  • Применения теста условной независимости для поиска плохо смоделированных тем, документов, терминов. Поиск тем для расщепления.

Литература: [Newman, 2009–2011].

Внешние оценки качества тематических моделей

Оценивание интерпретируемости тем.

  • Экспертное оценивание интерпретируемости.
  • Асессорская разметка терминов и документов, релевантных теме.
  • Метод интрузий.
  • Радикальное улучшение интерпретируемости в n-граммных тематических моделях.

Когерентность.

  • Определение когерентности.
  • Эксперименты, показывающие связь когерентности и интерпретируемости.
  • Способы оценивания совместной встречаемости слов.

Суммаризация темы.

  • Проблема визуализации тем.
  • Выделение тематичных слов и предложений.
  • Кластеризация тематичных предложений.
  • Ранжирование тематичных предложений.
  • Асессорская разметка предложений, релевантных теме.

Критерии качества классификации и ранжирования.

  • Полнота, точность и F-мера в задачах классификации и ранжирования.
  • Критерии качества ранжирования: MAP, DCG, NDCG.
  • Оценка качества тематического поиска документов по их длинным фрагментам.

Задание 1.4.

  1. Применить OEM к реальным коллекциям.
  2. Исследовать на реальных данных зависимость внутренних и внешних критериев качества от эвристических параметров алгоритма обучения OEM.
  3. В экспериментах на реальных данных построить зависимости перплексии обучающей и контрольной коллекции от числа итераций и числа тем.

Литература:

Определение числа тем и иерархические модели

Литература: .


Синтаксические тематические модели

Энграммные модели.

  • Задача выделения терминов как ключевых фраз (словосочетаний). Словари терминов.
  • Морфологический анализ текста.
  • Синтаксический анализ текста. Выявление подчинительных связей.
  • Статистические методы поиска коллокаций. Критерий C-Value.
  • Совмещённый статистический критерий TF-IDF & CValue.
  • Энграммный онлайновый алгоритм на основе синтаксического анализа и фильтрации терминов путём разреживания.
  • Влияние выделения ключевых фраз на качество модели и интерпретируемость тем.

Марковские модели синтаксиса.

  • Коллокации
  • Оценивание матрицы переходных вероятностей.

Регуляризация для задач классификации

  • Напоминания. Аддитивная регуляризация тематических моделей.

Простейшие модели.

  • Примеры классов: годы, авторы, категории, и т.д.
  • Моделирование классов темами.
  • Моделирование классов распределениями тем.
  • Автор-тематическая модель.
  • Многоклассовые задачи. Частотный регуляризатор.

Тематическая модель классификации.

  • Тематическая модель распределения классов документа. Вероятностная интерпретация.
  • Тематическая модель цитирования документов.
  • Тематическая модель цитирования авторов.
  • Тематическая модель категоризации. Ковариационный регуляризатор.

Динамические тематические модели

Модели с дискретным временем.

  • Модель с фиксированной тематикой.
  • Модель с медленно меняющейся тематикой.

Модели с непрерывным временем.

Иерархические тематические модели

  • Задачи категоризации текстов. Стандартный метод решения — сведение к последовательности задач классификации.

Тематическая модель с фиксированной иерархией.

  • Вероятностная формализация отношения «тема–подтема». Тождества, связывающие распределения тем и подтем
  • Задача построения иерархического тематического профиля документа.
  • Задача построения одного уровня иерархии. Аналитическое решение задачи максимизации правдоподобия, формулы M-шага.
  • Онлайновый иерархический EM-алгоритм.
  • Необходимость частичного обучения для задачи категоризации.
  • Необходимость разреживания для построения иерархического тематического профиля документа.

Сетевые иерархические модели.

  • Возможность для темы иметь несколько родительских тем.
  • Дивергенция Кульбака–Лейблера. Свойства KL-дивергенции.
  • Интерпретация KL-дивергенции как степени вложенности распределений. Оценивание силы связей «тема-подтема» KL-дивергенцией.
  • Дополнение тематического дерева до тематической сети.

Иерархические процессы Дирихле.

  • Оптимизация числа тем в плоской модели.
  • Создание новых тем в иерархических моделях.
  • Нисходящие и восходящие иерархические модели.

Многоязычные тематические модели

  • Параллельные тексты.
  • Сопоставимые тексты.
  • Регуляризация матрицы переводов слов.

Многомодальные тематические модели

  • Коллаборативная фильтрация.
  • Модель научной социальной сети.
  • Персонализация рекламы в Интернете.

Распараллеливание алгоритмов обучения тематических моделей

  • Основы Map-Reduce
  • Распределённое хранение коллекции.

Литература

Основная литература

  1. Vorontsov K. V., Potapenko A. A. Additive Regularization of Topic Models // Machine Learning. Special Issue “Data Analysis and Intelligent Optimization with Applications”: Volume 101, Issue 1 (2015), Pp. 303-323. Русский перевод
  2. Vorontsov K. V., Frei O. I., Apishev M. A., Romov P. A., Suvorova M. A., Yanina A. O. Non-Bayesian Additive Regularization for Multimodal Topic Modeling of Large Collections // Proceedings of the 2015 Workshop on Topic Models: Post-Processing and Applications, October 19, 2015, Melbourne, Australia. ACM, New York, NY, USA. pp. 29–37.
  3. Маннинг К., Рагхаван П., Шютце Х. Введение в информационный поиск. — Вильямс, 2011.
  4. Daud A., Li J., Zhou L., Muhammad F. Knowledge discovery through directed probabilistic topic models: a survey // Frontiers of Computer Science in China.— 2010.— Vol. 4, no. 2. — Pp. 280–301.
  5. Asuncion A., Welling M., Smyth P., Teh Y. W. On smoothing and inference for topic models // Proceedings of the International Conference on Uncertainty in Artificial Intelligence. — 2009.

Дополнительная литература

  1. Воронцов К. В., Потапенко А. А. Модификации EM-алгоритма для вероятностного тематического моделирования // Машинное обучение и анализ данных. — 2013. — T. 1, № 6. — С. 657–686.
  2. Воронцов К. В., Фрей А. И., Ромов П. А., Янина А. О., Суворова М. А., Апишев М. А. BigARTM: библиотека с открытым кодом для тематического моделирования больших текстовых коллекций // Аналитика и управление данными в областях с интенсивным использованием данных. XVII Международная конференция DAMDID/RCDL’2015, Обнинск, 13-16 октября 2015.
  3. Blei D. M., Ng A. Y., Jordan M. I. Latent Dirichlet allocation // Journal of Machine Learning Research. — 2003. — Vol. 3. — Pp. 993–1022.
  4. Chemudugunta C., Smyth P., Steyvers M. Modeling general and specific aspects of documents with a probabilistic topic model // Advances in Neural Information Processing Systems. — MIT Press, 2006. — Vol. 19. — Pp. 241–248.
  5. Dempster A. P., Laird N. M., Rubin D. B. Maximum likelihood from incomplete data via the EM algorithm // J. of the Royal Statistical Society, Series B. — 1977. — no. 34. — Pp. 1–38.
  6. Hofmann T. Probabilistic latent semantic indexing // Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval. — New York, NY, USA: ACM, 1999. — Pp. 50–57.
  7. Hoffman M. D., Blei D. M., Bach F. R. Online Learning for Latent Dirichlet Allocation // NIPS, 2010. Pp. 856–864.
  8. Lu Y., Mei Q., Zhai C. Investigating task performance of probabilistic topic models: an empirical study of PLSA and LDA // Information Retrieval. — 2011. — Vol.14, no.2. — Pp. 178–203.
  9. Wallach H., Mimno D., McCallum A. Rethinking LDA: Why priors matter // Advances in Neural Information Processing Systems 22 / Ed. by Y. Bengio, D. Schuurmans, J. Lafferty, C. K. I. Williams, A. Culotta. — 2009. — Pp. 1973–1981.

Ссылки

Личные инструменты