Вероятностный латентный семантический анализ

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск

Константин Гречищев (Обсуждение | вклад)
(Начало статьи. Некоторая часть перекликается с материалом статьи тематическое моделирование. Кажется лучше сделать отдельные подробны)
К следующему изменению →

Версия 06:47, 27 февраля 2014

Вероятностный латентный семантический анализ (англ. Probabilistic Latent Semantic Analysis, PLSA) - вероятностная тематическая модель представления текста на естественном языке. Модель называется латентной, так как предполагает введение скрытого (латентного) параметра - темы. Модель предложена Томасом Хофманном в 1999 году[1]. Применяется в задаче тематического моделирования.

Содержание

Формальная постановка задачи

Пусть D — множество (коллекция) текстовых документов, W — множество (словарь) всех употребляемых в них терминов (слов или словосочетаний). Каждый документ d \in D представляет собой последовательность n_d терминов (w_1, . . . , w_n_d) из словаря W. Термин может повторяться в документе много раз.

Пусть существует конечное множество тем T, и каждое употребление термина w в каждом документе d связано с некоторой темой t \in T, которая не известна. Формально тема определяется как дискретное (мультиномиальное) вероятностное распределение в пространстве слов заданного словаря W[1].

Введем дискретное вероятностное пространство D \times W \times T. Тогда коллекция документов может быть рассмотрена как множество троек (d, w, t), выбранных случайно и независимо из дискретного распределения p(d, w, t). При этом документы d \in D и термины w \in W являются наблюдаемыми переменными, тема t \in T является латентной (скрытой) переменной.

Требуется найти распределения терминов в темах p(w|t) \equiv \varphi_{wt} для всех тем t \in T и распределения тем в документах p(t|d) \equiv \theta_{td} для всех документов d \in D. При этом делается ряд допущений.

С учетом гипотезы условной независимости p(w|d,t) = p(w|t) по формуле полной вероятности получаем вероятностную модель порождения документа d:

p(w|d) = \sum_{t \in T} p(w|d,t)p(t|d) = \sum_{t \in T}p(w|t)p(t|d)=\varphi_{wt}\theta_{td}

Максимизация правдоподобия

Алгоритм

Недостатки

Примечания


Личные инструменты