Вероятностные тематические модели (курс лекций, К.В.Воронцов)
Материал из MachineLearning.
(лекция 2) |
|||
Строка 37: | Строка 37: | ||
* Постановка обратной задачи восстановления параметров модели по данным. | * Постановка обратной задачи восстановления параметров модели по данным. | ||
- | ''' | + | '''Вероятностный латентный семантический анализ (PLSA).''' |
- | * Частотные оценки условных вероятностей терминов тем и тем документов. Формула Байеса для апостериорной вероятности темы. ЕМ- | + | * Частотные оценки условных вероятностей терминов тем и тем документов. Формула Байеса для апостериорной вероятности темы. Элементарное обоснование ЕМ-алгоритма. |
* Принцип максимума правдоподобия, аналитическое решение задачи о стационарной точке функции Лагранжа, формулы M-шага. | * Принцип максимума правдоподобия, аналитическое решение задачи о стационарной точке функции Лагранжа, формулы M-шага. | ||
* Рациональный ЕМ-алгоритм. | * Рациональный ЕМ-алгоритм. | ||
'''Проведение экспериментов на модельных данных.''' | '''Проведение экспериментов на модельных данных.''' | ||
- | * Процесс порождения терминов в документе. Генератор модельных (синтетических) данных. | + | * Процесс порождения терминов в документе. Генератор модельных (синтетических) данных. Генерация случайной величины из заданного дискретного распределения. |
- | + | * Оценивание точности восстановления модельных данных. Расстояние между дискретными распределениями. Проблема перестановки тем, венгерский алгоритм. | |
- | * Оценивание точности восстановления модельных данных. | + | * Проблема неединственности и неустойчивости матричного разложения. Оценивание устойчивости решения. |
- | + | ||
- | * Проблема неединственности матричного разложения | + | |
- | + | '''Задание 1.1''' | |
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | '''Задание.''' | + | |
# Реализовать генератор модельных данных. Реализовать вычисление эмпирических распределений терминов тем и тем документов. | # Реализовать генератор модельных данных. Реализовать вычисление эмпирических распределений терминов тем и тем документов. | ||
- | # Реализовать | + | # Реализовать оценку точности восстановления с учётом перестановки тем. Вычислить оценку точности для исходных модельных распределений. |
- | + | ||
# Реализовать рациональный ЕМ-алгоритм. | # Реализовать рациональный ЕМ-алгоритм. | ||
# Исследовать зависимости точности модели и точности восстановления от числа итераций и от числа тем в модели (отличающегося от числа тем в исходных данных). | # Исследовать зависимости точности модели и точности восстановления от числа итераций и от числа тем в модели (отличающегося от числа тем в исходных данных). | ||
- | # | + | # Реализовать вычисление эмпирического распределения и доверительного интервала точности модели и точности восстановления при заданном числе случайных инициализаций. |
- | # Исследовать, при которых условиях проблема неустойчивости | + | # Исследовать, при которых условиях возникает проблема неустойчивости. |
'''Литература: [5].''' | '''Литература: [5].''' | ||
- | ===Модификации PLSA | + | ===Модификации PLSA=== |
'''Обобщённый ЕМ-алгоритм (GEM).''' | '''Обобщённый ЕМ-алгоритм (GEM).''' | ||
Строка 84: | Строка 74: | ||
* Добавление новых документов (folding-in). | * Добавление новых документов (folding-in). | ||
- | '''Разреженный ЕМ-алгоритм.''' | + | '''Разреженный ЕМ-алгоритм (Sparsed EM).''' |
- | * Гипотеза разреженности. | + | * Эмпирические законы Ципфа, Ципфа-Мандельброта, Хипса. |
+ | * Гипотеза разреженности распределений терминов тем и тем документов. | ||
* Эвристика принудительного разреживания в ЕМ-алгоритме. Варианты реализации. | * Эвристика принудительного разреживания в ЕМ-алгоритме. Варианты реализации. | ||
+ | * Генерация реалистичных модельных данных. | ||
+ | * Гипотеза об усечённых распределениях терминов тем в документах как ослабление гипотезы условной независимости. | ||
+ | * Связь разреженности и единственности матричного разложения. | ||
+ | |||
+ | '''Способы формирования начальных приближений.''' | ||
+ | * Случайная инициализация. | ||
+ | * Инициализация по документам. | ||
- | ''' | + | '''Частичное обучение (Semi-supervised EM).''' |
- | * Виды | + | * Виды обучающих данных: привязка документа к темам, привязка термина к темам, нерелевантность, переранжирование списков терминов темах и тем документов, виртуальные документы. |
* Использование дополнительной информации для инициализации. | * Использование дополнительной информации для инициализации. | ||
* Использование дополнительной информации в качестве поправок в ЕМ-алгоритме. | * Использование дополнительной информации в качестве поправок в ЕМ-алгоритме. | ||
- | '''Задание.''' | + | '''Задание 1.2''' |
# В экспериментах на модельных данных сравнить оценки точности модели и точности восстановления для алгоритмов GEM, SEM, OEM. | # В экспериментах на модельных данных сравнить оценки точности модели и точности восстановления для алгоритмов GEM, SEM, OEM. | ||
# Исследовать зависимость точности модели и точности восстановления от степени разреженности исходных модельных данных. | # Исследовать зависимость точности модели и точности восстановления от степени разреженности исходных модельных данных. |
Версия 22:29, 26 марта 2013
Спецкурс читается студентам 2—5 курсов на кафедре «Математические методы прогнозирования» ВМиК МГУ с 2013 года.
От студентов требуются знания курсов линейной алгебры, математического анализа, теории вероятностей. Знание математической статистики, методов оптимизации и какого-либо языка программирования желательно, но не обязательно.
Задачи анализа текстов. Вероятностные модели коллекций текстов
Задачи классификации текстов.
- Коллекция текстовых документов. Векторное представление документа.
- Постановка задачи классификации текстов. Объекты, признаки, классы, обучающая выборка. Распознавание текстов заданной тематики. Анализ тональности. Частоты слов (терминов) как признаки. Линейный классификатор.
- Задача распознавание жанра текстов. Распознавание научных текстов. Примеры признаков.
- Задача категоризации текстов, сведение к последовательности задач классификации.
Задачи информационного поиска.
- Задача поиска документов по запросу. Инвертированный индекс. Косинусная мера сходства.
- Критерий текстовой релевантности TF-IDF. Вероятностная модель и вывод формулы TF-IDF.
- Задача ранжирования. Примеры признаков. Формирование обучающих выборок асессорами.
Униграммная модель документов и коллекции.
- Вероятностное пространство. Гипотезы «мешка слов» и «мешка документов». Текст как простая выборка, порождаемая вероятностным распределением. Векторное представление документа как эмпирическое распределение.
- Понятие параметрической порождающей модели. Принцип максимума правдоподобия.
- Униграммная модель документов и коллекции. Аналитическое решение задачи о стационарной точке функции Лагранжа. Частотные оценки условных вероятностей.
Литература: [1].
Вероятностный латентный семантический анализ
- Напоминания. Коллекция текстовых документов. Векторное представление документа. Задачи информационного поиска и классификации текстов.
Мотивации вероятностного тематического моделирования
- Идея перехода от вектора (терминов) к вектору тем. Цели тематического моделирования: поиск научной информации, агрегирование новостных потоков, формирование сжатых признаковых описаний документов для классификации и категоризации текстовых документов, решение проблем синонимии и омонимии.
Задача тематического моделирования.
- Вероятностное пространство. Тема как латентная (скрытая) переменная. Представление темы дискретным распределением на множестве слов.
- Модель смеси униграмм. Недостаток: каждый документ принадлежит только одной теме.
- Представление документа дискретным распределением на множестве тем. Гипотеза условной независимости. Порождающая модель документа как вероятностной смеси тем.
- Постановка обратной задачи восстановления параметров модели по данным.
Вероятностный латентный семантический анализ (PLSA).
- Частотные оценки условных вероятностей терминов тем и тем документов. Формула Байеса для апостериорной вероятности темы. Элементарное обоснование ЕМ-алгоритма.
- Принцип максимума правдоподобия, аналитическое решение задачи о стационарной точке функции Лагранжа, формулы M-шага.
- Рациональный ЕМ-алгоритм.
Проведение экспериментов на модельных данных.
- Процесс порождения терминов в документе. Генератор модельных (синтетических) данных. Генерация случайной величины из заданного дискретного распределения.
- Оценивание точности восстановления модельных данных. Расстояние между дискретными распределениями. Проблема перестановки тем, венгерский алгоритм.
- Проблема неединственности и неустойчивости матричного разложения. Оценивание устойчивости решения.
Задание 1.1
- Реализовать генератор модельных данных. Реализовать вычисление эмпирических распределений терминов тем и тем документов.
- Реализовать оценку точности восстановления с учётом перестановки тем. Вычислить оценку точности для исходных модельных распределений.
- Реализовать рациональный ЕМ-алгоритм.
- Исследовать зависимости точности модели и точности восстановления от числа итераций и от числа тем в модели (отличающегося от числа тем в исходных данных).
- Реализовать вычисление эмпирического распределения и доверительного интервала точности модели и точности восстановления при заданном числе случайных инициализаций.
- Исследовать, при которых условиях возникает проблема неустойчивости.
Литература: [5].
Модификации PLSA
Обобщённый ЕМ-алгоритм (GEM).
- Эвристика частых обновлений параметров.
- Проблема хранения трёхмерных матриц.
- Эвристика замены средних экспоненциальным сглаживанием.
Стохастический ЕМ-алгоритм (SEM).
- Эвристика замены апостериорного распределения несмещённым эмпирическим.
- Эксперименты по подбору оптимального числа сэмплирований.
Онлайновый ЕМ-алгоритм (OEM).
- Проблема больших данных.
- Эвристика разделения М-шага.
- Эвристика разделения коллекции на пачки документов.
- Добавление новых документов (folding-in).
Разреженный ЕМ-алгоритм (Sparsed EM).
- Эмпирические законы Ципфа, Ципфа-Мандельброта, Хипса.
- Гипотеза разреженности распределений терминов тем и тем документов.
- Эвристика принудительного разреживания в ЕМ-алгоритме. Варианты реализации.
- Генерация реалистичных модельных данных.
- Гипотеза об усечённых распределениях терминов тем в документах как ослабление гипотезы условной независимости.
- Связь разреженности и единственности матричного разложения.
Способы формирования начальных приближений.
- Случайная инициализация.
- Инициализация по документам.
Частичное обучение (Semi-supervised EM).
- Виды обучающих данных: привязка документа к темам, привязка термина к темам, нерелевантность, переранжирование списков терминов темах и тем документов, виртуальные документы.
- Использование дополнительной информации для инициализации.
- Использование дополнительной информации в качестве поправок в ЕМ-алгоритме.
Задание 1.2
- В экспериментах на модельных данных сравнить оценки точности модели и точности восстановления для алгоритмов GEM, SEM, OEM.
- Исследовать зависимость точности модели и точности восстановления от степени разреженности исходных модельных данных.
- Исследовать влияние разреживания и частичного обучения на точность модели и точность восстановления.
Методы оценивания качества вероятностных тематических моделей
Реальные данные.
- Текстовые коллекции, библиотеки алгоритмов, источники информации.
Перплексия.
- Определение и интерпретация перплекcии.
- Перплексия контрольной коллекции. Проблема новых слов в контрольной коллекции.
Статистические тесты условной независимости.
- Методология проверки статистических гипотез. Критерий согласия хи-квадрат Пирсона. Матрица кросс-табуляции «термины–документы» для заданной темы.
- Проблема разреженности распределения. Эксперименты, показывающие неадекватность асимптотического распределения статистики хи-квадрат.
- Статистики модифицированного хи-квадрат, Кульбака-Лейблера, Хеллингера.
- Обобщённое семейство статистик Кресси-Рида.
- Алгоритм вычисления квантилей распределения статистики Кресси-Рида.
- Рекуррентное вычисление статистики Кресси-Рида.
Оценивание интерпретируемости тематических моделей.
- Корректность определения асессорами лишних терминов в темах и лишних тем в документах.
Оценивание качества темы.
- Чёткость темы: число типичных документов темы, число типичных терминов темы.
- Однородность (радиус) темы.
- Конфликтность темы (близость темы к другим темам).
Критерии качества классификации и ранжирования.
- Полнота, точность и F-мера в задачах классификации и ранжирования.
- Критерии качества ранжирования: MAP, DCG, NDCG.
- Оценка качества тематического поиска документов по их длинным фрагментам.
Визуализация тематических моделей.
Задание.
- В экспериментах на реальных данных построить зависимости перплексии обучающей и контрольной коллекции от числа итераций и числа тем.
Латентное размещение Дирихле LDA
- Байесовская регуляризация. Свойства распределения Дирихле, сопряжённость с мультиномиальным распределением. Байесовский вывод. Сглаженные частотные оценки условных вероятностей.
- Сэмплирование Гиббса как вариант стохастического ЕМ-алгоритма.
- Численные методы оптимизации гиперпараметров.
- Сравнение LDA и PLSA, подвержен ли PLSA переобучению.
Робастные тематические модели
- Тематическая модель с фоном и шумом. Принцип максимума правдоподобия, аналитическое решение задачи о стационарной точке функции Лагранжа, формулы M-шага. Аддитивный и мультипликативный М-шаг.
- Эксперименты: робастная модель не нуждается в регуляризации и более устойчива к разреживанию.
Иерархические тематические модели
- Задачи категоризации текстов. Стандартный метод решения — сведение к последовательности задач классификации.
Тематическая модель с фиксированной иерархией.
- Вероятностная формализация отношения «тема–подтема». Принцип максимума правдоподобия, аналитическое решение задачи о стационарной точке функции Лагранжа, формулы M-шага.
- Дивергенция Кульбака–Лейблера.
- Несимметричность KL-дивергенции. Интерпретация KL-дивергенции как степени вложенности распределений. Оценивание силы связей «тема-подтема» KL-дивергенцией.
Иерархические процессы Дирихле.
- Оптимизация числа тем в плоской модели. Создание новых тем в иерархических моделях.
Сетевые иерархические модели.
- Возможность для темы иметь несколько родительских тем.
- Нисходящие и восходящие иерархические модели.
Тематические модели с выделением ключевых фраз
- Задачи предварительной обработки текстов. Очистка (номера страниц, переносы, опечатки, числовая информация, оглавление, таблицы и рисунки), лемматизация, удаление стоп-слов, удаление редких слов.
- Задача выделения терминов. Основные идеи: словари терминов, морфологический анализ предложений, поиск коллокаций, машинное обучение.
- Статистические оценки неслучайности. Вывод критерия C-Value.
- Морфологический анализатор.
- Тематические модели с учётом синонимии (эффект burstiness).
Многоязычные тематические модели
Распараллеливание алгоритмов обучения тематических моделей
Основная литература
- Маннинг К., Рагхаван П., Шютце Х. Введение в информационный поиск. — Вильямс, 2011.
- Воронцов К. В., Потапенко А. А. Регуляризация, робастность и разреженность вероятностных тематических моделей // Компьютерные исследования и моделирование 2012 Т. 4, №12. С 693–706.
- Daud A., Li J., Zhou L., Muhammad F. Knowledge discovery through directed probabilistic topic models: a survey // Frontiers of Computer Science in China.— 2010.— Vol. 4, no. 2. — Pp. 280–301.
Дополнительная литература
- Blei D. M., Ng A. Y., Jordan M. I. Latent Dirichlet allocation // Journal of Machine Learning Research. — 2003. — Vol. 3. — Pp. 993–1022.
- Hofmann T. Probabilistic latent semantic indexing // Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval. — New York, NY, USA: ACM, 1999. — Pp. 50–57.
- Hoffman M. D., Blei D. M., Bach F. R. Online Learning for Latent Dirichlet Allocation // NIPS, 2010. Pp. 856–864.
- Zavitsanos E., Paliouras G., Vouros G. A. Non-parametric estimation of topic hierarchies from texts with hierarchical Dirichlet processes // Journal of Machine Learning Research. — 2011. — Vol. 12.— Pp. 2749–2775.
Конспект лекций: Voron-2013-ptm.pdf, 500 КБ (обновление 22 марта 2013). |