Коллекции документов для тематического моделирования

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(nips)
(t\c)
Строка 29: Строка 29:
'''Файлы:'''
'''Файлы:'''
[[Media:RuDis-collection.rar|Архив RAR, 4.5 MБ]]
[[Media:RuDis-collection.rar|Архив RAR, 4.5 MБ]]
-
* RuDisOld_c.txt — обучающая выборка
+
* RuDisOld_t.txt — обучающая выборка
-
* RuDisOld_t.txt — контрольная выборка
+
* RuDisOld_c.txt — контрольная выборка
'''Статьи:'''
'''Статьи:'''
Строка 55: Строка 55:
'''Файлы:'''
'''Файлы:'''
[[Media:NIPS-collection.rar|Архив RAR, 1.5 MБ]]
[[Media:NIPS-collection.rar|Архив RAR, 1.5 MБ]]
-
* NIPSOld_c.txt — обучающая выборка
+
* NIPSOld_t.txt — обучающая выборка
-
* NIPSOld_t.txt — контрольная выборка
+
* NIPSOld_c.txt — контрольная выборка
'''Статьи:'''
'''Статьи:'''

Версия 14:35, 7 июня 2013

Содержание

Коллекции текстовых документов для экспериментов по тематическому моделированию.

Коллекция RuDis

Документы представляют собой коллекцию авторефератов диссертаций на русском языке.

Предварительная обработка: отбрасывание стоп-слов, лемматизация, формирование матрицы частот.

Все данные представлены в числовом виде, исходные тексты и словарь не прилагаются.

Элементами словаря являются отдельные слова (словосочетания не выделялись).

Длина словаря: 20211 слов.

Число документов: 2000 в обучающей выборке, 200 в контрольной выборке.

Разделение на обучающую выборку и контрольную — случайное.

Формат данных: заголовок коллекции содержит две строки:

число документов
число слов в словаре

далее для каждого документа в файле записано по три строки:

число различных слов в документе
идентификаторы слов через пробел, в порядке возрастания идентификаторов
частоты соответствующих слов (сколько раз слово встретилось в документе) через пробел

Файлы: Архив RAR, 4.5 MБ

  • RuDisOld_t.txt — обучающая выборка
  • RuDisOld_c.txt — контрольная выборка

Статьи: [1]

Коллекция NIPS

Документы представляют собой статьи конференции NIPS на английском языке.

Предварительная обработка: отбрасывание стоп-слов, стемминг, формирование матрицы частот.

Все данные представлены в числовом виде, исходные тексты и словарь не прилагаются.

Элементами словаря являются отдельные слова (словосочетания не выделялись).

Длина словаря: 13649 слов.

Число документов: 1566 в обучающей выборке, 174 в контрольной выборке.

Разделение на обучающую выборку и контрольную — случайное.

Формат данных: тот же, что для коллекции RuDis

Файлы: Архив RAR, 1.5 MБ

  • NIPSOld_t.txt — обучающая выборка
  • NIPSOld_c.txt — контрольная выборка

Статьи: [1]

Литература


См. также

Личные инструменты