Коллекции документов для тематического моделирования

Материал из MachineLearning.

Версия от 13:33, 7 июня 2013; Vokov (Обсуждение | вклад)

(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)

Коллекция RuDis

Документы представляют собой коллекцию авторефератов диссертаций на русском языке.

Предварительная обработка: стемминг, лемматизация, формирование матрицы частот. Все данные представлены в числовом виде, исходные тексты и словарь не прилагаются. Элементами словаря являются отдельные слова.

Длина словаря 20211 слов.

Число документов: 2000 в обучающей выборке, 200 в контрольной выборке.

Формат данных: заголовок коллекции содержит две строки:

число документов
число слов в словаре

для каждого документа в файле записано три строки:

число различных слов в документе
идентификаторы слов через пробел, в порядке возрастания идентификаторов
частоты соответствующих слов, т.е. сколько раз слово встретилось в документе

Файлы: (RAR, 4.5 MБ).

Статьи: ^[1]

Источник — «http://machinelearning.ru/wiki/index.php?title=%D0%9A%D0%BE%D0%BB%D0%BB%D0%B5%D0%BA%D1%86%D0%B8%D0%B8_%D0%B4%D0%BE%D0%BA%D1%83%D0%BC%D0%B5%D0%BD%D1%82%D0%BE%D0%B2_%D0%B4%D0%BB%D1%8F_%D1%82%D0%B5%D0%BC%D0%B0%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%BE%D0%B3%D0%BE_%D0%BC%D0%BE%D0%B4%D0%B5%D0%BB%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D1%8F»

Коллекции документов для тематического моделирования

Материал из MachineLearning.

Коллекция RuDis

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты