Тематическое моделирование
Материал из MachineLearning.
Тематическая модель (topic model) — модель коллекции текстовых документов, которая определяет, к каким темам относится каждый документ коллекции. Алгоритм построения тематической модели получает на входе коллекцию текстовых документов. На выходе для каждого документа выдаётся числовой вектор, составленный из оценок степени принадлежности данного документа каждой из тем. Размерность этого вектора, равная числу тем, может либо задаваться на входе, либо определяться моделью автоматически.
Тематическое моделирование (topic modeling) — построение тематической модели.
Содержание |
Виды тематических моделей
Метод главных компонент и неотрицательные матричные разложения
Вероятностный латентный семантический анализ
Латентное размещение Дирихле
Ненаправленные модели
Литература
- Scott Deerwester, Susan T. Dumais, George W. Furnas, Thomas K. Landauer, Richard Harshman. Indexing by Latent Semantic Analysis. JASIS (41) 1990 pp. 391-407.
- Thomas Hofmann. Probilistic latent semantic analysis. Proceedings of the Twenty-Second Annual International SIGIR Conference on Research and Development in Information Retrieval. 1999.
- David M. Blei, Andrew Ng, Michael Jordan. Latent Dirichlet allocation. Journal of Machine Learning Research (3) 2003 pp. 993-1022.
- Mark Steyvers, Tom Griffiths. Probabilistic Topic Models. In Handbook of Latent Semantic Analysis. 2007.
- Ali Daud, Juanzi Li, Lizhu Zhou, Faqir Muhammad. Frontiers of Computer Science in China, Vol.4, No.2, 2010, p. 280-301.
- T. L. Griffiths, M. Steyvers. Finding scientific topics. Proceedings of the National Academy of Sciences, Vol. 101, Nr. Suppl. 1 (April 2004) , p. 5228-5235. Скачать с CiteSeer
Перевод на русский язык (PDF, 1 МБ).
Ссылки
- Topic Modeling Bibliography — коллекция ссылок Дэвида Мимно.
- Topic Model — англоязычная Википедия.