Вероятностный латентный семантический анализ

Материал из MachineLearning.

(Различия между версиями)

Константин Гречищев (Обсуждение | вклад)
(Начало статьи. Некоторая часть перекликается с материалом статьи тематическое моделирование. Кажется лучше сделать отдельные подробны)
К следующему изменению →

Версия 06:47, 27 февраля 2014

Вероятностный латентный семантический анализ (англ. Probabilistic Latent Semantic Analysis, PLSA) - вероятностная тематическая модель представления текста на естественном языке. Модель называется латентной, так как предполагает введение скрытого (латентного) параметра - темы. Модель предложена Томасом Хофманном в 1999 году^[1]. Применяется в задаче тематического моделирования.

Формальная постановка задачи

Основная статья: Тематическое моделирование

Пусть $D$ — множество (коллекция) текстовых документов, $W$ — множество (словарь) всех употребляемых в них терминов (слов или словосочетаний). Каждый документ $d \in D$ представляет собой последовательность $n_d$ терминов ( $w_1, . . . , w_n_d$ ) из словаря W. Термин может повторяться в документе много раз.

Пусть существует конечное множество тем $T$ , и каждое употребление термина $w$ в каждом документе $d$ связано с некоторой темой $t \in T$ , которая не известна. Формально тема определяется как дискретное (мультиномиальное) вероятностное распределение в пространстве слов заданного словаря $W$ ^[1].

Введем дискретное вероятностное пространство $D \times W \times T$ . Тогда коллекция документов может быть рассмотрена как множество троек $(d, w, t)$ , выбранных случайно и независимо из дискретного распределения $p(d, w, t)$ . При этом документы $d \in D$ и термины $w \in W$ являются наблюдаемыми переменными, тема $t \in T$ является латентной (скрытой) переменной.

Требуется найти распределения терминов в темах $p(w|t) \equiv \varphi_{wt}$ для всех тем $t \in T$ и распределения тем в документах $p(t|d) \equiv \theta_{td}$ для всех документов $d \in D$ . При этом делается ряд допущений.