Вероятностный латентный семантический анализ
Материал из MachineLearning.
Вероятностный латентный семантический анализ (англ. Probabilistic Latent Semantic Analysis, PLSA) - вероятностная тематическая модель представления текста на естественном языке. Модель называется латентной, так как предполагает введение скрытого (латентного) параметра - темы. Модель предложена Томасом Хофманном в 1999 году[1]. Применяется в задаче тематического моделирования.
Содержание |
Формальная постановка задачи
Пусть — множество (коллекция) текстовых документов, — множество (словарь) всех употребляемых в них терминов (слов или словосочетаний). Каждый документ представляет собой последовательность терминов () из словаря W. Термин может повторяться в документе много раз.
Пусть существует конечное множество тем , и каждое употребление термина в каждом документе связано с некоторой темой , которая не известна. Формально тема определяется как дискретное (мультиномиальное) вероятностное распределение в пространстве слов заданного словаря [1].
Введем дискретное вероятностное пространство . Тогда коллекция документов может быть рассмотрена как множество троек , выбранных случайно и независимо из дискретного распределения . При этом документы и термины являются наблюдаемыми переменными, тема является латентной (скрытой) переменной.
Требуется найти распределения терминов в темах для всех тем и распределения тем в документах для всех документов . При этом делается ряд допущений.
С учетом гипотезы условной независимости по формуле полной вероятности получаем вероятностную модель порождения документа :
Введем следующие обозначения:
- - число троек во всей коллекции. Другими словами, это число поялвений термина в связи с темой в документе ;
- - число вхождений термина в документ ;
- - число вохждений всех терминов, связанных с темой в документ ;
- - число поялвений термина в связи с темой во всех документах коллеккции ;
- - число вхожений терина в коллекцию;
- - длина документа ;
- - «длина темы» , то есть число появления терминов в коллекции, связанных с темой ;
- - длина коллекции.
Максимизация правдоподобия
Правдоподобие — это плотность распределения выборки :
Рассмотрим вероятностную тематическую модель , где
- - искомая матрица терминов тем,
- - искомая матрица тем документов, .
Запишем задачу максимизации правдоподобия
- , где
- — нормировочный множитель, зависящий только от чисел
С учетом (1) и того факта, что не зависит от параметров прологарифмируем правдоподобие, получив задачу максимизации:
при ограничениях неотрицательности и нормировки
- .
Алгоритм
Недостатки
Примечания