Тематическое моделирование

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
м (Литература)
(дополнение, оформление)
Строка 1: Строка 1:
 +
{{TOCright}}
'''Тематическая модель''' (topic model) — модель коллекции текстовых документов, которая определяет, к каким темам относится каждый документ коллекции. Алгоритм построения тематической модели получает на входе коллекцию текстовых документов. На выходе для каждого документа выдаётся числовой вектор, составленный из оценок степени принадлежности данного документа каждой из тем. Размерность этого вектора, равная числу тем, может либо задаваться на входе, либо определяться моделью автоматически.
'''Тематическая модель''' (topic model) — модель коллекции текстовых документов, которая определяет, к каким темам относится каждый документ коллекции. Алгоритм построения тематической модели получает на входе коллекцию текстовых документов. На выходе для каждого документа выдаётся числовой вектор, составленный из оценок степени принадлежности данного документа каждой из тем. Размерность этого вектора, равная числу тем, может либо задаваться на входе, либо определяться моделью автоматически.
Строка 16: Строка 17:
== Литература ==
== Литература ==
-
# ''Scott Deerwester, Susan T. Dumais, George W. Furnas, Thomas K. Landauer, Richard Harshman''. Indexing by Latent Semantic Analysis. JASIS (41) 1990 pp. 391-407.
+
# ''Scott Deerwester, Susan T. Dumais, George W. Furnas, Thomas K. Landauer, Richard Harshman''. Indexing by Latent Semantic Analysis // JASIS (41) 1990 pp. 391-407.
-
# ''Thomas Hofmann''. Probilistic latent semantic analysis. Proceedings of the Twenty-Second Annual International SIGIR Conference on Research and Development in Information Retrieval. 1999.
+
# ''Thomas Hofmann''. Probilistic latent semantic analysis // Proceedings of the Twenty-Second Annual International SIGIR Conference on Research and Development in Information Retrieval. 1999.
-
# ''David M. Blei, Andrew Ng, Michael Jordan''. Latent Dirichlet allocation. Journal of Machine Learning Research (3) 2003 pp. 993-1022.
+
# ''David M. Blei, Andrew Ng, Michael Jordan''. Latent Dirichlet allocation // Journal of Machine Learning Research (3) 2003 pp. 993-1022.
-
# ''Mark Steyvers, Tom Griffiths''. Probabilistic Topic Models. In Handbook of Latent Semantic Analysis. 2007.
+
# ''Mark Steyvers, Tom Griffiths''. Probabilistic Topic Models // In Handbook of Latent Semantic Analysis. 2007.
-
# ''Ali Daud, Juanzi Li, Lizhu Zhou, Faqir Muhammad''. Frontiers of Computer Science in China, Vol.4, No.2, 2010, p. 280-301. [[Media:Daud2009survey-rus.pdf|Перевод на русский язык (PDF, 1 МБ)]].
+
# ''Ali Daud, Juanzi Li, Lizhu Zhou, Faqir Muhammad''. Knowledge discovery through directed probabilistic topic models: a survey // Frontiers of Computer Science in China, Vol.4, No.2, 2010, p. 280-301. [[Media:Daud2009survey-rus.pdf|Перевод на русский язык (PDF, 1 МБ)]].
-
# ''T. L. Griffiths, M. Steyvers''. Finding scientific topics. Proceedings of the National Academy of Sciences, Vol. 101, Nr. Suppl. 1 (April 2004) , p. 5228-5235. [http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.110.3205 Скачать с CiteSeer]
+
# ''T. L. Griffiths, M. Steyvers''. Finding scientific topics // Proceedings of the National Academy of Sciences, Vol. 101, Nr. Suppl. 1 (April 2004) , p. 5228-5235. [http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.110.3205 Скачать с CiteSeer]
== Ссылки ==
== Ссылки ==
* [http://www.cs.princeton.edu/~mimno/topics.html Topic Modeling Bibliography] — коллекция ссылок Дэвида Мимно.
* [http://www.cs.princeton.edu/~mimno/topics.html Topic Modeling Bibliography] — коллекция ссылок Дэвида Мимно.
* [http://en.wikipedia.org/w/index.php?title=Topic_model Topic Model] — англоязычная Википедия.
* [http://en.wikipedia.org/w/index.php?title=Topic_model Topic Model] — англоязычная Википедия.
 +
* [[Media:Voron-ML-TopicModels-slides.pdf|Тематическое моделирование (PDF, 1 МБ)]] — презентация лекции К.В.Воронцова (МФТИ, ВМК МГУ, ШАД Яндекс, 2011).
{{stub}}
{{stub}}

Версия 12:45, 3 января 2012

Содержание

Тематическая модель (topic model) — модель коллекции текстовых документов, которая определяет, к каким темам относится каждый документ коллекции. Алгоритм построения тематической модели получает на входе коллекцию текстовых документов. На выходе для каждого документа выдаётся числовой вектор, составленный из оценок степени принадлежности данного документа каждой из тем. Размерность этого вектора, равная числу тем, может либо задаваться на входе, либо определяться моделью автоматически.

Тематическое моделирование (topic modeling) — построение тематической модели.

Виды тематических моделей

Метод главных компонент и неотрицательные матричные разложения

Латентный семантический анализ

Вероятностный латентный семантический анализ

Латентное размещение Дирихле

Ненаправленные модели

Литература

  1. Scott Deerwester, Susan T. Dumais, George W. Furnas, Thomas K. Landauer, Richard Harshman. Indexing by Latent Semantic Analysis // JASIS (41) 1990 pp. 391-407.
  2. Thomas Hofmann. Probilistic latent semantic analysis // Proceedings of the Twenty-Second Annual International SIGIR Conference on Research and Development in Information Retrieval. 1999.
  3. David M. Blei, Andrew Ng, Michael Jordan. Latent Dirichlet allocation // Journal of Machine Learning Research (3) 2003 pp. 993-1022.
  4. Mark Steyvers, Tom Griffiths. Probabilistic Topic Models // In Handbook of Latent Semantic Analysis. 2007.
  5. Ali Daud, Juanzi Li, Lizhu Zhou, Faqir Muhammad. Knowledge discovery through directed probabilistic topic models: a survey // Frontiers of Computer Science in China, Vol.4, No.2, 2010, p. 280-301. Перевод на русский язык (PDF, 1 МБ).
  6. T. L. Griffiths, M. Steyvers. Finding scientific topics // Proceedings of the National Academy of Sciences, Vol. 101, Nr. Suppl. 1 (April 2004) , p. 5228-5235. Скачать с CiteSeer

Ссылки