Тематическое моделирование
Материал из MachineLearning.
|
Тематическая модель (topic model) — модель коллекции текстовых документов, которая определяет, к каким темам относится каждый документ коллекции. Алгоритм построения тематической модели получает на входе коллекцию текстовых документов. На выходе для каждого документа выдаётся числовой вектор, составленный из оценок степени принадлежности данного документа каждой из тем. Размерность этого вектора, равная числу тем, может либо задаваться на входе, либо определяться моделью автоматически.
Тематическое моделирование (topic modeling) — построение тематической модели.
Постановка задачи
Задана коллекция текстовых документов . Каждый документ из коллекции представляет собой последовательность слов из словаря . Предполагается, что каждый документ может относиться к одной или нескольким темам. Темы отличаются друг от друга различной частотой употребления слов. Требуется найти эти темы, то есть определить
- число тем;
- распределения частот слов, характерное для каждой темы;
- отнгести каждый документ к одной или нескольким темам.
Дополнительные задачи
Дополнительная информация
Латентный семантический анализ
Метод главных компонент
Неотрицательные матричные разложения
Вероятностные тематические модели
Вероятностный латентный семантический анализ
Латентное размещение Дирихле
Ненаправленные модели
Литература
- Scott Deerwester, Susan T. Dumais, George W. Furnas, Thomas K. Landauer, Richard Harshman. Indexing by Latent Semantic Analysis // JASIS (41) 1990 pp. 391-407.
- Thomas Hofmann. Probilistic latent semantic analysis // Proceedings of the Twenty-Second Annual International SIGIR Conference on Research and Development in Information Retrieval. 1999.
- David M. Blei, Andrew Ng, Michael Jordan. Latent Dirichlet allocation // Journal of Machine Learning Research (3) 2003 pp. 993-1022.
- Mark Steyvers, Tom Griffiths. Probabilistic Topic Models // In Handbook of Latent Semantic Analysis. 2007.
- Ali Daud, Juanzi Li, Lizhu Zhou, Faqir Muhammad. Knowledge discovery through directed probabilistic topic models: a survey // Frontiers of Computer Science in China, Vol.4, No.2, 2010, p. 280-301. Перевод на русский язык (PDF, 1 МБ).
- T. L. Griffiths, M. Steyvers. Finding scientific topics // Proceedings of the National Academy of Sciences, Vol. 101, Nr. Suppl. 1 (April 2004) , p. 5228-5235. Скачать с CiteSeer
Ссылки
- Topic Modeling Bibliography — коллекция ссылок Дэвида Мимно.
- Topic Model — англоязычная Википедия.
- Тематическое моделирование (PDF, 1 МБ) — презентация лекции К.В.Воронцова (МФТИ, ВМК МГУ, ШАД Яндекс, 2011).
- Лекция (PDF, 480 КБ) по латентному размещению Дирихле в рамках спецкурса БММО.