Коллекции документов для тематического моделирования

Материал из MachineLearning.

(Различия между версиями)

Перейти к: навигация, поиск

Текущая версия

Содержание

1 Коллекция RuDis
2 Коллекция NIPS
3 Матрицы Φ и Θ
4 Литература
5 См. также

Коллекции текстовых документов для экспериментов по тематическому моделированию.

Коллекция RuDis

Документы представляют собой коллекцию авторефератов диссертаций на русском языке.

Предварительная обработка: отбрасывание стоп-слов, лемматизация, формирование матрицы частот.

Все данные представлены в числовом виде, исходные тексты и словарь не прилагаются.

Элементами словаря являются отдельные слова (словосочетания не выделялись).

Длина словаря: 20211 слов.

Число документов: 2000 в обучающей выборке, 200 в контрольной выборке.

Разделение на обучающую выборку и контрольную — случайное.

Формат данных: заголовок коллекции содержит две строки:

число документов
число слов в словаре

далее для каждого документа в файле записано по три строки:

число различных слов в документе
идентификаторы слов через пробел, в порядке возрастания идентификаторов
частоты соответствующих слов (сколько раз слово встретилось в документе) через пробел

Файлы: Архив RAR, 4.5 MБ

RuDisOld_t.txt — обучающая выборка
RuDisOld_c.txt — контрольная выборка

Статьи: ^[1]

Коллекция NIPS

Документы представляют собой статьи конференции NIPS на английском языке.

Предварительная обработка: отбрасывание стоп-слов, стемминг, формирование матрицы частот.

Все данные представлены в числовом виде, исходные тексты и словарь не прилагаются.

Элементами словаря являются отдельные слова (словосочетания не выделялись).

Длина словаря: 13649 слов.

Число документов: 1566 в обучающей выборке, 174 в контрольной выборке.

Разделение на обучающую выборку и контрольную — случайное.

Формат данных: тот же, что для коллекции RuDis

Файлы: Архив RAR, 1.5 MБ

NIPSOld_t.txt — обучающая выборка
NIPSOld_c.txt — контрольная выборка

Матрицы Φ и Θ

На коллекции NIPS была построена тематическая модель PLSA со 100 темами, а также модель ARTM с разреженными декоррелированными предметными и сглаженными фоновыми темами (90 и 10 соответственно). Полученные матрицы Φ и Θ могут использоваться для генерации полумодельных данных.

Формат данных: элементы разделены пробелами и символами новой строки. Размерность Φ — длина словаря на число тем, размерность Θ — число тем на число документов в обучении.

Файлы:

‎

Статьи: ^[1]

Литература

См. также

Тематическое моделирование
Аддитивная регуляризация тематических моделей
BigARTM
Воронцов К. В. Вероятностное тематическое моделирование: теория регуляризации ARTM и библиотека с открытым кодом BigARTM. 2023.
Лекция по латентному размещению Дирихле в рамках спецкурса БММО (PDF, 480 КБ).

Это незавершённая статья. Вы поможете проекту, исправив и дополнив её.

Источник — «http://machinelearning.ru/wiki/index.php?title=%D0%9A%D0%BE%D0%BB%D0%BB%D0%B5%D0%BA%D1%86%D0%B8%D0%B8_%D0%B4%D0%BE%D0%BA%D1%83%D0%BC%D0%B5%D0%BD%D1%82%D0%BE%D0%B2_%D0%B4%D0%BB%D1%8F_%D1%82%D0%B5%D0%BC%D0%B0%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%BE%D0%B3%D0%BE_%D0%BC%D0%BE%D0%B4%D0%B5%D0%BB%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D1%8F»

Категории: Незавершённые статьи | Тематическое моделирование | Анализ текстов | Машинное обучение

@@ Строка 1: / Строка 1: @@
-Коллекции документов для тематического моделирования
+{{TOCright}}
+Коллекции текстовых документов для экспериментов по [[тематическое моделирование|тематическому моделированию]].
 == Коллекция RuDis ==
@@ Строка 5: / Строка 6: @@
 Документы представляют собой коллекцию авторефератов диссертаций на русском языке.
-Предварительная обработка: стемминг, лемматизация, формирование матрицы частот.
+Предварительная обработка: отбрасывание стоп-слов, лемматизация, формирование матрицы частот.
 Все данные представлены в числовом виде, исходные тексты и словарь не прилагаются.
-Элементами словаря являются отдельные слова.
-Длина словаря 20211 слов.
+Элементами словаря являются отдельные слова (словосочетания не выделялись).
+Длина словаря: 20211 слов.
 Число документов: 2000 в обучающей выборке, 200 в контрольной выборке.
+Разделение на обучающую выборку и контрольную — случайное.
 '''Формат данных:'''
@@ Строка 17: / Строка 22: @@
  число документов
  число слов в словаре
-для каждого документа в файле записано три строки:
+далее для каждого документа в файле записано по три строки:
  число различных слов в документе
  идентификаторы слов через пробел, в порядке возрастания идентификаторов
- частоты соответствующих слов, т.е. сколько раз слово встретилось в документе
+ частоты соответствующих слов (сколько раз слово встретилось в документе) через пробел
 '''Файлы:'''
-[[Media:RuDis-collection.rar|(RAR, 4.5 MБ)]].
+[[Media:RuDis-collection.rar|Архив RAR, 4.5 MБ]]
+* RuDisOld_t.txt — обучающая выборка
+* RuDisOld_c.txt — контрольная выборка
 '''Статьи:'''
 <ref name="potapenko13robust">Potapenko A. A., [[User:Vokov|Vorontsov K. V.]] Robust PLSA Performs Better Than LDA // 35th European Conference on Information Retrieval, [[http://ecir2013.org ECIR-2013]], Moscow, Russia, 24–27 March 2013. — Lecture Notes in Computer Science (LNCS), Springer Verlag-Germany, 2013.  Pp. 784–787.</ref>
+== Коллекция NIPS ==
+Документы представляют собой статьи конференции [[NIPS]] на английском языке.
+Предварительная обработка: отбрасывание стоп-слов, стемминг, формирование матрицы частот.
+Все данные представлены в числовом виде, исходные тексты и словарь не прилагаются.
+Элементами словаря являются отдельные слова (словосочетания не выделялись).
+Длина словаря: 13649 слов.
+Число документов: 1566 в обучающей выборке, 174 в контрольной выборке.
+Разделение на обучающую выборку и контрольную — случайное.
+'''Формат данных:''' тот же, что для коллекции RuDis
+'''Файлы:'''
+[[Media:NIPS-collection.rar|Архив RAR, 1.5 MБ]]
+* NIPSOld_t.txt — обучающая выборка
+* NIPSOld_c.txt — контрольная выборка
+== Матрицы Φ и Θ ==
+На коллекции NIPS была построена тематическая модель PLSA со 100 темами, а также модель ARTM с разреженными декоррелированными предметными и сглаженными фоновыми темами (90 и 10 соответственно).
+Полученные матрицы Φ и Θ могут использоваться для генерации полумодельных данных.
+'''Формат данных:''' элементы разделены пробелами и символами новой строки. Размерность Φ — длина словаря на число тем, размерность Θ — число тем на число документов в обучении.
+'''Файлы:'''
+* [[Медиа:Phi-theta-PLSA.rar‎ | Матрицы модели PLSA]]
+* [[Медиа:Phi-theta-Reg.rar | Матрицы модели ARTM]]
+‎
+'''Статьи:'''
+<ref name="potapenko13robust"/>
+== Литература ==
+<references/>
 == См. также ==
 * [[Тематическое моделирование]]
-* [[Вероятностные тематические модели (курс лекций, К.В.Воронцов)]]. Текст: [[Media:Voron-2013-ptm.pdf|(PDF, 500 КБ)]]. Презентация [[Media:Voron-ML-TopicModels-slides.pdf| (PDF,&nbsp;1&nbsp;МБ)]].
+* [[Аддитивная регуляризация тематических моделей]]
-* К.В.Воронцов. Научный семинар по вероятностным тематическим моделям, 23 апреля 2013. '''[[Media:voron-viniti-23apr2013.pdf|(PDF,&nbsp;2.0&nbsp;МБ)]]'''.
+* [[BigARTM]]
+* ''Воронцов К. В.'' [[Media:voron17survey-artm.pdf|Вероятностное тематическое моделирование: теория регуляризации ARTM и библиотека с открытым кодом BigARTM]]. 2023.
 * Лекция по латентному размещению Дирихле в рамках спецкурса [[bmmo|БММО]] [[Media:BMMO11_14.pdf|(PDF, 480 КБ)]].
-<references/>
 {{stub}}

Коллекции документов для тематического моделирования

Материал из MachineLearning.

Текущая версия

Содержание

Коллекция RuDis

Коллекция NIPS

Матрицы Φ и Θ

Литература

См. также

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты