Коллекции документов для тематического моделирования

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Коллекция NIPS)
(См. также)
 
(8 промежуточных версий не показаны.)

Текущая версия

Содержание

Коллекции текстовых документов для экспериментов по тематическому моделированию.

Коллекция RuDis

Документы представляют собой коллекцию авторефератов диссертаций на русском языке.

Предварительная обработка: отбрасывание стоп-слов, лемматизация, формирование матрицы частот.

Все данные представлены в числовом виде, исходные тексты и словарь не прилагаются.

Элементами словаря являются отдельные слова (словосочетания не выделялись).

Длина словаря: 20211 слов.

Число документов: 2000 в обучающей выборке, 200 в контрольной выборке.

Разделение на обучающую выборку и контрольную — случайное.

Формат данных: заголовок коллекции содержит две строки:

число документов
число слов в словаре

далее для каждого документа в файле записано по три строки:

число различных слов в документе
идентификаторы слов через пробел, в порядке возрастания идентификаторов
частоты соответствующих слов (сколько раз слово встретилось в документе) через пробел

Файлы: Архив RAR, 4.5 MБ

  • RuDisOld_t.txt — обучающая выборка
  • RuDisOld_c.txt — контрольная выборка

Статьи: [1]

Коллекция NIPS

Документы представляют собой статьи конференции NIPS на английском языке.

Предварительная обработка: отбрасывание стоп-слов, стемминг, формирование матрицы частот.

Все данные представлены в числовом виде, исходные тексты и словарь не прилагаются.

Элементами словаря являются отдельные слова (словосочетания не выделялись).

Длина словаря: 13649 слов.

Число документов: 1566 в обучающей выборке, 174 в контрольной выборке.

Разделение на обучающую выборку и контрольную — случайное.

Формат данных: тот же, что для коллекции RuDis

Файлы: Архив RAR, 1.5 MБ

  • NIPSOld_t.txt — обучающая выборка
  • NIPSOld_c.txt — контрольная выборка

Матрицы Φ и Θ

На коллекции NIPS была построена тематическая модель PLSA со 100 темами, а также модель ARTM с разреженными декоррелированными предметными и сглаженными фоновыми темами (90 и 10 соответственно). Полученные матрицы Φ и Θ могут использоваться для генерации полумодельных данных.

Формат данных: элементы разделены пробелами и символами новой строки. Размерность Φ — длина словаря на число тем, размерность Θ — число тем на число документов в обучении.

Файлы:

Статьи: [1]

Литература


См. также

Личные инструменты