Вероятностные тематические модели (курс лекций, К.В.Воронцов)

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(уточнение, дополнение)
(уточнение, дополнение)
Строка 48: Строка 48:
* Процесс порождения терминов в документе. Генератор модельных (синтетических) данных. Генерация случайной величины из заданного дискретного распределения.
* Процесс порождения терминов в документе. Генератор модельных (синтетических) данных. Генерация случайной величины из заданного дискретного распределения.
* Оценивание точности восстановления модельных данных. Расстояние между дискретными распределениями. Проблема перестановки тем, венгерский алгоритм.
* Оценивание точности восстановления модельных данных. Расстояние между дискретными распределениями. Проблема перестановки тем, венгерский алгоритм.
-
* Проблема неединственности и неустойчивости матричного разложения. Оценивание устойчивости решения.
+
* Проблема неединственности и неустойчивости матричного разложения. Экспериментальное оценивание устойчивости решения.
'''Задание 1.1'''
'''Задание 1.1'''
Строка 56: Строка 56:
# Реализовать рациональный ЕМ-алгоритм.
# Реализовать рациональный ЕМ-алгоритм.
# Исследовать зависимости точности модели и точности восстановления от числа итераций и от числа тем в модели (при фиксированном числе тем в исходных данных). Что происходит, когда тем больше, чем нужно? Меньше, чем нужно?
# Исследовать зависимости точности модели и точности восстановления от числа итераций и от числа тем в модели (при фиксированном числе тем в исходных данных). Что происходит, когда тем больше, чем нужно? Меньше, чем нужно?
-
# Реализовать вычисление эмпирического распределения и доверительного интервала точности модели и точности восстановления при заданном числе случайных инициализаций. Всегда ли EM-алгоритм сходится к одному и тому же решению?
+
# Исследовать влияние случайного начального приближения на точность модели и точность восстановления. Построить для них эмпирические распределения и доверительные интервалы. Можно ли утверждать, что EM-алгоритм всегда сходится к одному и тому же решению?
-
# Исследовать, когда проблема неустойчивости возникает, когда не возникает. Как неустойчивость зависит от степени разреженности исходных модельных распределений?
+
# Исследовать, когда проблема неустойчивости возникает, когда не возникает.
'''Литература:''' [Hofmann, 1999].
'''Литература:''' [Hofmann, 1999].
Строка 63: Строка 63:
===Модификации алгоритма обучения модели PLSA===
===Модификации алгоритма обучения модели PLSA===
-
* ''Напоминания.'' Задача тематического моделирования коллекции текстовых документов. PLSA, формулы Е-шага и М-шага.
+
* ''Напоминания.'' Задача тематического моделирования коллекции текстовых документов. Модель PLSA, формулы Е-шага и М-шага.
'''Обобщённый ЕМ-алгоритм (GEM).'''
'''Обобщённый ЕМ-алгоритм (GEM).'''
 +
* Проблема медленной сходимости EM-алгоритма на больших коллекциях. Проблема хранения трёхмерных матриц.
* Эвристика частых обновлений параметров.
* Эвристика частых обновлений параметров.
-
* Проблема хранения трёхмерных матриц.
 
* Эвристика замены средних экспоненциальным сглаживанием.
* Эвристика замены средних экспоненциальным сглаживанием.
'''Стохастический ЕМ-алгоритм (SEM).'''
'''Стохастический ЕМ-алгоритм (SEM).'''
* Гипотеза разреженности апоcтериорного распределения тем p(t|d,w).
* Гипотеза разреженности апоcтериорного распределения тем p(t|d,w).
-
* Эвристика замены апостериорного распределения несмещённым эмпирическим.
+
* Эвристика замены апостериорного распределения его несмещённой оценкой.
* Алгоритм сэмплирования Гиббса.
* Алгоритм сэмплирования Гиббса.
* Эксперименты по подбору оптимального числа сэмплирований.
* Эксперименты по подбору оптимального числа сэмплирований.
Строка 87: Строка 87:
'''Частичное обучение (Semi-supervised EM).'''
'''Частичное обучение (Semi-supervised EM).'''
-
* Виды обучающих данных: привязка документа к темам, привязка термина к темам, нерелевантность, переранжирование списков терминов темах и тем документов, виртуальные документы.
+
* Виды частично размеченных данных: привязка документа к темам, привязка термина к темам, нерелевантность, переранжирование списков терминов тем и тем документов, виртуальные документы.
-
* Использование дополнительной информации для инициализации.
+
* Использование частично размеченных данных для инициализации.
-
* Использование дополнительной информации в качестве поправок в ЕМ-алгоритме.
+
* Использование частично размеченных данных в качестве поправок в ЕМ-алгоритме.
'''Задание 1.2'''
'''Задание 1.2'''
Обязательные пункты: 1 и любой из последующих.
Обязательные пункты: 1 и любой из последующих.
# Реализовать онлайновый алгоритм OEM.
# Реализовать онлайновый алгоритм OEM.
-
# Исследовать зависимость точности модели и точности восстановления от размера первой пачки, размера последующих пачек, числа итераций на внутреннем и внешнем циклах алгоритма OEM.
+
# Исследовать влияние размера первой пачки и последующих пачек на качество модели.
-
# Исследовать, насколько второй проход по коллекции (без инициализации p(w|t)) способен улучшить качество модели.
+
# Исследовать влияние выбора числа итераций на внутреннем и внешнем циклах алгоритма OEM на качество и скорость построения модели.
-
# Исследовать влияние частичного обучения на точность модели и точность восстановления. Проверить гипотезу, что небольшой доли правильно размеченных документов уже достаточно для существенного улучшения точности и устойчивости модели.
+
# Исследовать возможность улучшения качество модели с помощью второго прохода по коллекции (без инициализации p(w|t)).
-
# Сравнить скорость работы OEM с обычным (рациональным) EM.
+
# Исследовать влияние частичной разметки на точность модели и точность восстановления. Проверить гипотезу, что небольшой доли правильно размеченных документов уже достаточно для существенного улучшения точности и устойчивости модели.
'''Литература:''' [Hoffman, 2010].
'''Литература:''' [Hoffman, 2010].
===Разреживание и сглаживание===
===Разреживание и сглаживание===
-
 
-
* ''Напоминания.'' Вероятностная тематическая модель коллекции текстовых документов. Модель PLSA и EM-алгоритм.
 
'''Разреживание'''
'''Разреживание'''
* Эмпирические законы Ципфа, Ципфа-Мандельброта, Хипса.
* Эмпирические законы Ципфа, Ципфа-Мандельброта, Хипса.
* Гипотеза разреженности распределений терминов тем и тем документов.
* Гипотеза разреженности распределений терминов тем и тем документов.
-
* Генерация реалистичных модельных данных.
+
* Принудительное разреживание в ЕМ-алгоритме. Оценка значимости (salience) параметров, метод [[OBD|Optimal Brain Damage]]. Варианты реализации.
-
* Принудительное разреживание в ЕМ-алгоритме. Метод [[OBD]] —- Optimal Brain Damage. Варианты реализации.
+
* Связь разреженности и единственности матричного разложения.
* Связь разреженности и единственности матричного разложения.
 +
* Генерация реалистичных модельных данных. Ослабление гипотезы условной независимости: усечённые распределения.
'''Сглаживание'''
'''Сглаживание'''
Строка 126: Строка 124:
'''Задание 1.3'''
'''Задание 1.3'''
-
Обязательные пункты: 1 и 2 или 3 и любой из остальных.
+
Обязательные пункты: 1 или 2 и любой из остальных.
# Реализовать разреживание в онлайновом алгоритме OEM.
# Реализовать разреживание в онлайновом алгоритме OEM.
-
# Исследовать зависимость точности модели и точности восстановления от степени разреженности исходных модельных данных, для обычного и разреживающего OEM. Проверить гипотезу, что если исходные данные разрежены, то разреживание существенно улучшает точность восстановления и слабо влияет на точность модели.
+
# Реализовать генерацию модельных данных с фоном и шумом. Реализовать робастный алгоритм OEM.
-
# Реализовать робастный OЕМ. Реализовать генератор модельных данных с шумом и фоном.
+
# Исследовать зависимость точности модели и точности восстановления от степени разреженности исходных модельных данных.
-
# Исследовать зависимость точности модели и точности восстановления от параметров априорной вероятности шума и фона. Совпадает ли структура разреженности восстановленных распределений с исходными модельными? Совпадает ли апостериорная вероятность шума и фона с модельной? Достигается ли оптимум точности модели и точности восстановления, если параметры априорной вероятности шума и фона взять точно те же, что при генерации модельных данных?
+
# Исследовать влияние разреживания на точность модели и точность восстановления. Проверить гипотезу, что если исходные данные разрежены, то разреживание существенно улучшает точность восстановления и слабо влияет на точность модели.
-
# Исследовать влияние М-шага (аддитивный или мультипликативный) на точность модели и точность восстановления.
+
# Исследовать влияние сглаживания на точность модели и точность восстановления.
-
# Реализовать робастный разреженный OEM. Проверить гипотезу, что разреживание в робастном алгоритме приводит к лучшим результатам, чем в неробастном.
+
# Исследовать зависимость точности робастной модели и точности восстановления от параметров априорной вероятности фона и шума. Что происходит с точностью модели, когда эти параметры «плохо угаданы»?
'''Литература:''' [Blei, 2003], [Chemudugunta, 2006].
'''Литература:''' [Blei, 2003], [Chemudugunta, 2006].

Версия 00:31, 2 апреля 2013

Содержание

Спецкурс читается студентам 2—5 курсов на кафедре «Математические методы прогнозирования» ВМиК МГУ с 2013 года.

От студентов требуются знания курсов линейной алгебры, математического анализа, теории вероятностей. Знание математической статистики, методов оптимизации и какого-либо языка программирования желательно, но не обязательно.

Условием сдачи спецкурса является выполнение обязательных практических заданий.

Задачи анализа текстов. Вероятностные модели коллекций текстов

Задачи классификации текстов.

  • Коллекция текстовых документов. Векторное представление документа.
  • Постановка задачи классификации текстов. Объекты, признаки, классы, обучающая выборка. Распознавание текстов заданной тематики. Анализ тональности. Частоты слов (терминов) как признаки. Линейный классификатор.
  • Задача распознавание жанра текстов. Распознавание научных текстов. Примеры признаков.
  • Задача категоризации текстов, сведение к последовательности задач классификации.

Задачи информационного поиска.

  • Задача поиска документов по запросу. Инвертированный индекс. Косинусная мера сходства.
  • Критерий текстовой релевантности TF-IDF. Вероятностная модель и вывод формулы TF-IDF.
  • Задача ранжирования. Примеры признаков. Формирование асессорских обучающих выборок.

Униграммная модель документов и коллекции.

  • Вероятностное пространство. Гипотезы «мешка слов» и «мешка документов». Текст как простая выборка, порождаемая вероятностным распределением. Векторное представление документа как эмпирическое распределение.
  • Понятие параметрической порождающей модели. Принцип максимума правдоподобия.
  • Униграммная модель документов и коллекции. Аналитическое решение задачи о стационарной точке функции Лагранжа. Частотные оценки условных вероятностей.

Литература: [Маннинг, 2011].

Вероятностный латентный семантический анализ

  • Напоминания. Коллекция текстовых документов. Векторное представление документа. Задачи информационного поиска и классификации текстов.

Мотивации вероятностного тематического моделирования

  • Идея перехода от вектора (терминов) к вектору тем.
  • Цели тематического моделирования: поиск научной информации, агрегирование и анализ новостных потоков, формирование сжатых признаковых описаний документов для классификации и категоризации текстовых документов, обход проблем синонимии и омонимии.

Задача тематического моделирования.

  • Вероятностное пространство. Тема как латентная (скрытая) переменная. Представление темы дискретным распределением на множестве слов.
  • Модель смеси униграмм. Недостаток: каждый документ принадлежит только одной теме.
  • Представление документа дискретным распределением на множестве тем. Гипотеза условной независимости. Порождающая модель документа как вероятностной смеси тем.
  • Постановка обратной задачи восстановления параметров модели по данным.

Вероятностный латентный семантический анализ (PLSA).

  • Частотные оценки условных вероятностей терминов тем и тем документов. Формула Байеса для апостериорной вероятности темы. Элементарное обоснование ЕМ-алгоритма.
  • Принцип максимума правдоподобия, аналитическое решение задачи о стационарной точке функции Лагранжа, формулы M-шага.
  • Рациональный ЕМ-алгоритм.

Проведение экспериментов на модельных данных.

  • Процесс порождения терминов в документе. Генератор модельных (синтетических) данных. Генерация случайной величины из заданного дискретного распределения.
  • Оценивание точности восстановления модельных данных. Расстояние между дискретными распределениями. Проблема перестановки тем, венгерский алгоритм.
  • Проблема неединственности и неустойчивости матричного разложения. Экспериментальное оценивание устойчивости решения.

Задание 1.1 Обязательные пункты: 1–3 и любой из последующих.

  1. Реализовать генератор модельных данных. Реализовать вычисление эмпирических распределений терминов тем и тем документов.
  2. Реализовать оценку точности восстановления с учётом перестановки тем. Вычислить оценку точности для исходных модельных распределений.
  3. Реализовать рациональный ЕМ-алгоритм.
  4. Исследовать зависимости точности модели и точности восстановления от числа итераций и от числа тем в модели (при фиксированном числе тем в исходных данных). Что происходит, когда тем больше, чем нужно? Меньше, чем нужно?
  5. Исследовать влияние случайного начального приближения на точность модели и точность восстановления. Построить для них эмпирические распределения и доверительные интервалы. Можно ли утверждать, что EM-алгоритм всегда сходится к одному и тому же решению?
  6. Исследовать, когда проблема неустойчивости возникает, когда не возникает.

Литература: [Hofmann, 1999].

Модификации алгоритма обучения модели PLSA

  • Напоминания. Задача тематического моделирования коллекции текстовых документов. Модель PLSA, формулы Е-шага и М-шага.

Обобщённый ЕМ-алгоритм (GEM).

  • Проблема медленной сходимости EM-алгоритма на больших коллекциях. Проблема хранения трёхмерных матриц.
  • Эвристика частых обновлений параметров.
  • Эвристика замены средних экспоненциальным сглаживанием.

Стохастический ЕМ-алгоритм (SEM).

  • Гипотеза разреженности апоcтериорного распределения тем p(t|d,w).
  • Эвристика замены апостериорного распределения его несмещённой оценкой.
  • Алгоритм сэмплирования Гиббса.
  • Эксперименты по подбору оптимального числа сэмплирований.

Онлайновый ЕМ-алгоритм (OEM).

  • Проблема больших данных.
  • Эвристика разделения М-шага.
  • Эвристика разделения коллекции на пачки документов.
  • Добавление новых документов (folding-in).

Способы формирования начальных приближений.

  • Случайная инициализация.
  • Инициализация по документам.

Частичное обучение (Semi-supervised EM).

  • Виды частично размеченных данных: привязка документа к темам, привязка термина к темам, нерелевантность, переранжирование списков терминов тем и тем документов, виртуальные документы.
  • Использование частично размеченных данных для инициализации.
  • Использование частично размеченных данных в качестве поправок в ЕМ-алгоритме.

Задание 1.2 Обязательные пункты: 1 и любой из последующих.

  1. Реализовать онлайновый алгоритм OEM.
  2. Исследовать влияние размера первой пачки и последующих пачек на качество модели.
  3. Исследовать влияние выбора числа итераций на внутреннем и внешнем циклах алгоритма OEM на качество и скорость построения модели.
  4. Исследовать возможность улучшения качество модели с помощью второго прохода по коллекции (без инициализации p(w|t)).
  5. Исследовать влияние частичной разметки на точность модели и точность восстановления. Проверить гипотезу, что небольшой доли правильно размеченных документов уже достаточно для существенного улучшения точности и устойчивости модели.

Литература: [Hoffman, 2010].

Разреживание и сглаживание

Разреживание

  • Эмпирические законы Ципфа, Ципфа-Мандельброта, Хипса.
  • Гипотеза разреженности распределений терминов тем и тем документов.
  • Принудительное разреживание в ЕМ-алгоритме. Оценка значимости (salience) параметров, метод Optimal Brain Damage. Варианты реализации.
  • Связь разреженности и единственности матричного разложения.
  • Генерация реалистичных модельных данных. Ослабление гипотезы условной независимости: усечённые распределения.

Сглаживание

  • Модель латентного размещения Дирихле LDA.
  • Свойства распределения Дирихле, сопряжённость с мультиномиальным распределением.
  • Байесовский вывод. Сглаженные частотные оценки условных вероятностей.
  • Численные методы оптимизации гиперпараметров.
  • Сравнение LDA и PLSA. Экспериментальные факты: LDA скорее улучшает оценки редких слов, чем снижает переобучение.

Робастные тематические модели

  • Тематическая модель с фоном и шумом.
  • Принцип максимума правдоподобия, аналитическое решение задачи о стационарной точке функции Лагранжа, формулы M-шага.
  • Аддитивный и мультипликативный М-шаг.
  • Эксперименты: робастная модель не нуждается в регуляризации и более устойчива к разреживанию.

Задание 1.3 Обязательные пункты: 1 или 2 и любой из остальных.

  1. Реализовать разреживание в онлайновом алгоритме OEM.
  2. Реализовать генерацию модельных данных с фоном и шумом. Реализовать робастный алгоритм OEM.
  3. Исследовать зависимость точности модели и точности восстановления от степени разреженности исходных модельных данных.
  4. Исследовать влияние разреживания на точность модели и точность восстановления. Проверить гипотезу, что если исходные данные разрежены, то разреживание существенно улучшает точность восстановления и слабо влияет на точность модели.
  5. Исследовать влияние сглаживания на точность модели и точность восстановления.
  6. Исследовать зависимость точности робастной модели и точности восстановления от параметров априорной вероятности фона и шума. Что происходит с точностью модели, когда эти параметры «плохо угаданы»?

Литература: [Blei, 2003], [Chemudugunta, 2006].

Методы оценивания качества вероятностных тематических моделей

Реальные данные.

  • Текстовые коллекции, библиотеки алгоритмов, источники информации.
  • Внутренние и внешние критерии качества.
  • Дополнительные данные для построения внешних критериев качества.

Перплексия.

  • Определение и интерпретация перплекcии.
  • Перплексия контрольной коллекции. Проблема новых слов в контрольной коллекции.

Статистические тесты условной независимости.

  • Методология проверки статистических гипотез. Критерий согласия хи-квадрат Пирсона. Матрица кросс-табуляции «термины–документы» для заданной темы.
  • Проблема разреженности распределения. Эксперименты, показывающие неадекватность асимптотического распределения статистики хи-квадрат.
  • Статистики модифицированного хи-квадрат, Кульбака-Лейблера, Хеллингера.
  • Обобщённое семейство статистик Кресси-Рида.
  • Алгоритм вычисления квантилей распределения статистики Кресси-Рида.
  • Рекуррентное вычисление статистики Кресси-Рида.

Оценивание интерпретируемости тематических моделей.

  • Корректность определения асессорами лишних терминов в темах и лишних тем в документах.
  • Визуализация тематических моделей.

Оценивание качества темы.

  • Чёткость темы: число типичных документов темы, число типичных терминов темы.
  • Однородность (радиус) темы.
  • Конфликтность темы (близость темы к другим темам).

Критерии качества классификации и ранжирования.

  • Полнота, точность и F-мера в задачах классификации и ранжирования.
  • Критерии качества ранжирования: MAP, DCG, NDCG.
  • Оценка качества тематического поиска документов по их длинным фрагментам.

Усечённые распределения

  • Гипотеза об усечённых распределениях терминов тем в документах как ослабление гипотезы условной независимости.
  • Явление burstiness.

Задание 1.4.

  1. Применить OEM к реальным коллекциям.
  2. Исследовать на реальных данных зависимость внутренних и внешних критериев качества от эвристических параметров алгоритма обучения OEM.
  3. В экспериментах на реальных данных построить зависимости перплексии обучающей и контрольной коллекции от числа итераций и числа тем.

Литература: [Blei, 2003].


Иерархические тематические модели

  • Задачи категоризации текстов. Стандартный метод решения — сведение к последовательности задач классификации.

Тематическая модель с фиксированной иерархией.

  • Вероятностная формализация отношения «тема–подтема». Принцип максимума правдоподобия, аналитическое решение задачи о стационарной точке функции Лагранжа, формулы M-шага.
  • Дивергенция Кульбака–Лейблера.
  • Несимметричность KL-дивергенции. Интерпретация KL-дивергенции как степени вложенности распределений. Оценивание силы связей «тема-подтема» KL-дивергенцией.

Иерархические процессы Дирихле.

  • Оптимизация числа тем в плоской модели. Создание новых тем в иерархических моделях.

Сетевые иерархические модели.

  • Возможность для темы иметь несколько родительских тем.
  • Нисходящие и восходящие иерархические модели.

Тематические модели с выделением ключевых фраз

  • Задачи предварительной обработки текстов. Очистка (номера страниц, переносы, опечатки, числовая информация, оглавление, таблицы и рисунки), лемматизация, удаление стоп-слов, удаление редких слов.
  • Задача выделения терминов. Основные идеи: словари терминов, морфологический анализ предложений, поиск коллокаций, машинное обучение.
  • Статистические оценки неслучайности. Вывод критерия C-Value.
  • Морфологический анализатор.
  • Тематические модели с учётом синонимии (эффект burstiness).

Многоязычные тематические модели

Распараллеливание алгоритмов обучения тематических моделей

Основная литература

  1. Маннинг К., Рагхаван П., Шютце Х. Введение в информационный поиск. — Вильямс, 2011.
  2. Daud A., Li J., Zhou L., Muhammad F. Knowledge discovery through directed probabilistic topic models: a survey // Frontiers of Computer Science in China.— 2010.— Vol. 4, no. 2. — Pp. 280–301.
  3. Asuncion A., Welling M., Smyth P., Teh Y. W. On smoothing and inference for topic models // Proceedings of the International Conference on Uncertainty in Artificial Intelligence. � 2009.

Дополнительная литература

  1. Воронцов К. В., Потапенко А. А. Регуляризация, робастность и разреженность вероятностных тематических моделей // Компьютерные исследования и моделирование 2012 Т. 4, №12. С 693–706.
  2. Blei D. M., Ng A. Y., Jordan M. I. Latent Dirichlet allocation // Journal of Machine Learning Research. — 2003. — Vol. 3. — Pp. 993–1022.
  3. Chemudugunta C., Smyth P., Steyvers M. Modeling general and specific aspects of documents with a probabilistic topic model // Advances in Neural Information Processing Systems. � MIT Press, 2006.� Vol. 19. � Pp. 241–248.
  4. Dempster A. P., Laird N. M., Rubin D. B. Maximum likelihood from incomplete data via the EM algorithm // J. of the Royal Statistical Society, Series B.� 1977.� no. 34.� Pp. 1–38.
  5. Hofmann T. Probabilistic latent semantic indexing // Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval. — New York, NY, USA: ACM, 1999. — Pp. 50–57.
  6. Hoffman M. D., Blei D. M., Bach F. R. Online Learning for Latent Dirichlet Allocation // NIPS, 2010. Pp. 856–864.
  7. Lu Y., Mei Q., Zhai C. Investigating task performance of probabilistic topic models: an empirical study of PLSA and LDA // Information Retrieval.� 2011.� Vol. 14, no. 2.� Pp. 178–203.
  8. Wallach H., Mimno D., McCallum A. Rethinking LDA: Why priors matter // Advances in Neural Information Processing Systems 22 / Ed. by Y. Bengio, D. Schuurmans, J. Lafferty, C. K. I. Williams, A. Culotta. � 2009.� Pp. 1973–1981.
  9. Zavitsanos E., Paliouras G., Vouros G. A. Non-parametric estimation of topic hierarchies from texts with hierarchical Dirichlet processes // Journal of Machine Learning Research. — 2011. — Vol. 12.— Pp. 2749–2775.


Конспект лекций: Voron-2013-ptm.pdf, 500 КБ (обновление 22 марта 2013).


Личные инструменты