Коллекции документов для тематического моделирования
Материал из MachineLearning.
Коллекции документов для тематического моделирования
Коллекция RuDis
Документы представляют собой коллекцию авторефератов диссертаций на русском языке.
Предварительная обработка: стемминг, лемматизация, формирование матрицы частот. Все данные представлены в числовом виде, исходные тексты и словарь не прилагаются. Элементами словаря являются отдельные слова.
Длина словаря 20211 слов.
Число документов: 2000 в обучающей выборке, 200 в контрольной выборке.
Формат данных: заголовок коллекции содержит две строки:
число документов число слов в словаре
для каждого документа в файле записано три строки:
число различных слов в документе идентификаторы слов через пробел, в порядке возрастания идентификаторов частоты соответствующих слов, т.е. сколько раз слово встретилось в документе
Файлы: (RAR, 4.5 MБ).
Статьи: [1]
См. также
- Тематическое моделирование
- Вероятностные тематические модели (курс лекций, К.В.Воронцов). Текст: (PDF, 500 КБ). Презентация (PDF, 1 МБ).
- К.В.Воронцов. Научный семинар по вероятностным тематическим моделям, 23 апреля 2013. (PDF, 2.0 МБ).
- Лекция по латентному размещению Дирихле в рамках спецкурса БММО (PDF, 480 КБ).