Тематическое моделирование

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(+ ссылка на лекцию по LDA)
Строка 4: Строка 4:
'''Тематическое моделирование''' (topic modeling) — построение тематической модели.
'''Тематическое моделирование''' (topic modeling) — построение тематической модели.
-
== Виды тематических моделей ==
+
== Постановка задачи ==
 +
Задана коллекция текстовых документов <tex>D</tex>.
 +
Каждый документ <tex>d</tex> из коллекции <tex>D</tex> представляет собой последовательность слов из словаря <tex>W</tex>.
 +
Предполагается, что каждый документ может относиться к одной или нескольким темам.
 +
Темы отличаются друг от друга различной частотой употребления слов.
 +
Требуется найти эти темы, то есть определить
 +
* число тем;
 +
* распределения частот слов, характерное для каждой темы;
 +
* отнгести каждый документ к одной или нескольким темам.
-
===Метод главных компонент и неотрицательные матричные разложения===
+
'''Дополнительные задачи'''
 +
 
 +
'''Дополнительная информация'''
 +
 
 +
==Латентный семантический анализ==
 +
===Метод главных компонент===
 +
===Неотрицательные матричные разложения===
 +
 
 +
==Вероятностные тематические модели==
-
===Латентный семантический анализ===
 
===Вероятностный латентный семантический анализ===
===Вероятностный латентный семантический анализ===

Версия 17:43, 13 января 2012

Содержание

Тематическая модель (topic model) — модель коллекции текстовых документов, которая определяет, к каким темам относится каждый документ коллекции. Алгоритм построения тематической модели получает на входе коллекцию текстовых документов. На выходе для каждого документа выдаётся числовой вектор, составленный из оценок степени принадлежности данного документа каждой из тем. Размерность этого вектора, равная числу тем, может либо задаваться на входе, либо определяться моделью автоматически.

Тематическое моделирование (topic modeling) — построение тематической модели.

Постановка задачи

Задана коллекция текстовых документов D. Каждый документ d из коллекции D представляет собой последовательность слов из словаря W. Предполагается, что каждый документ может относиться к одной или нескольким темам. Темы отличаются друг от друга различной частотой употребления слов. Требуется найти эти темы, то есть определить

  • число тем;
  • распределения частот слов, характерное для каждой темы;
  • отнгести каждый документ к одной или нескольким темам.

Дополнительные задачи

Дополнительная информация

Латентный семантический анализ

Метод главных компонент

Неотрицательные матричные разложения

Вероятностные тематические модели

Вероятностный латентный семантический анализ

Латентное размещение Дирихле

Ненаправленные модели

Литература

  1. Scott Deerwester, Susan T. Dumais, George W. Furnas, Thomas K. Landauer, Richard Harshman. Indexing by Latent Semantic Analysis // JASIS (41) 1990 pp. 391-407.
  2. Thomas Hofmann. Probilistic latent semantic analysis // Proceedings of the Twenty-Second Annual International SIGIR Conference on Research and Development in Information Retrieval. 1999.
  3. David M. Blei, Andrew Ng, Michael Jordan. Latent Dirichlet allocation // Journal of Machine Learning Research (3) 2003 pp. 993-1022.
  4. Mark Steyvers, Tom Griffiths. Probabilistic Topic Models // In Handbook of Latent Semantic Analysis. 2007.
  5. Ali Daud, Juanzi Li, Lizhu Zhou, Faqir Muhammad. Knowledge discovery through directed probabilistic topic models: a survey // Frontiers of Computer Science in China, Vol.4, No.2, 2010, p. 280-301. Перевод на русский язык (PDF, 1 МБ).
  6. T. L. Griffiths, M. Steyvers. Finding scientific topics // Proceedings of the National Academy of Sciences, Vol. 101, Nr. Suppl. 1 (April 2004) , p. 5228-5235. Скачать с CiteSeer

Ссылки

Личные инструменты