Коллекции документов для тематического моделирования

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(См. также)
(13 промежуточных версий не показаны.)
Строка 1: Строка 1:
-
Коллекции документов для тематического моделирования
+
{{TOCright}}
 +
Коллекции текстовых документов для экспериментов по [[тематическое моделирование|тематическому моделированию]].
== Коллекция RuDis ==
== Коллекция RuDis ==
Строка 5: Строка 6:
Документы представляют собой коллекцию авторефератов диссертаций на русском языке.
Документы представляют собой коллекцию авторефератов диссертаций на русском языке.
-
Предварительная обработка: стемминг, лемматизация, формирование матрицы частот.
+
Предварительная обработка: отбрасывание стоп-слов, лемматизация, формирование матрицы частот.
 +
 
Все данные представлены в числовом виде, исходные тексты и словарь не прилагаются.
Все данные представлены в числовом виде, исходные тексты и словарь не прилагаются.
-
Элементами словаря являются отдельные слова.
 
-
Длина словаря 20211 слов.
+
Элементами словаря являются отдельные слова (словосочетания не выделялись).
 +
 
 +
Длина словаря: 20211 слов.
Число документов: 2000 в обучающей выборке, 200 в контрольной выборке.
Число документов: 2000 в обучающей выборке, 200 в контрольной выборке.
 +
 +
Разделение на обучающую выборку и контрольную — случайное.
'''Формат данных:'''
'''Формат данных:'''
Строка 17: Строка 22:
число документов
число документов
число слов в словаре
число слов в словаре
-
для каждого документа в файле записано три строки:
+
далее для каждого документа в файле записано по три строки:
число различных слов в документе
число различных слов в документе
идентификаторы слов через пробел, в порядке возрастания идентификаторов
идентификаторы слов через пробел, в порядке возрастания идентификаторов
-
частоты соответствующих слов, т.е. сколько раз слово встретилось в документе
+
частоты соответствующих слов (сколько раз слово встретилось в документе) через пробел
'''Файлы:'''
'''Файлы:'''
-
[[Media:RuDis-collection.rar|(RAR, 4.5 MБ)]].
+
[[Media:RuDis-collection.rar|Архив RAR, 4.5 MБ]]
 +
* RuDisOld_t.txt — обучающая выборка
 +
* RuDisOld_c.txt — контрольная выборка
'''Статьи:'''
'''Статьи:'''
<ref name="potapenko13robust">Potapenko A. A., [[User:Vokov|Vorontsov K. V.]] Robust PLSA Performs Better Than LDA // 35th European Conference on Information Retrieval, [[http://ecir2013.org ECIR-2013]], Moscow, Russia, 24–27 March 2013. — Lecture Notes in Computer Science (LNCS), Springer Verlag-Germany, 2013. Pp. 784–787.</ref>
<ref name="potapenko13robust">Potapenko A. A., [[User:Vokov|Vorontsov K. V.]] Robust PLSA Performs Better Than LDA // 35th European Conference on Information Retrieval, [[http://ecir2013.org ECIR-2013]], Moscow, Russia, 24–27 March 2013. — Lecture Notes in Computer Science (LNCS), Springer Verlag-Germany, 2013. Pp. 784–787.</ref>
 +
== Коллекция NIPS ==
 +
 +
Документы представляют собой статьи конференции [[NIPS]] на английском языке.
 +
 +
Предварительная обработка: отбрасывание стоп-слов, стемминг, формирование матрицы частот.
 +
 +
Все данные представлены в числовом виде, исходные тексты и словарь не прилагаются.
 +
 +
Элементами словаря являются отдельные слова (словосочетания не выделялись).
 +
 +
Длина словаря: 13649 слов.
 +
 +
Число документов: 1566 в обучающей выборке, 174 в контрольной выборке.
 +
 +
Разделение на обучающую выборку и контрольную — случайное.
 +
 +
'''Формат данных:''' тот же, что для коллекции RuDis
 +
 +
'''Файлы:'''
 +
[[Media:NIPS-collection.rar|Архив RAR, 1.5 MБ]]
 +
* NIPSOld_t.txt — обучающая выборка
 +
* NIPSOld_c.txt — контрольная выборка
 +
 +
== Матрицы Φ и Θ ==
 +
 +
На коллекции NIPS была построена тематическая модель PLSA со 100 темами, а также модель ARTM с разреженными декоррелированными предметными и сглаженными фоновыми темами (90 и 10 соответственно).
 +
Полученные матрицы Φ и Θ могут использоваться для генерации полумодельных данных.
 +
 +
'''Формат данных:''' элементы разделены пробелами и символами новой строки. Размерность Φ — длина словаря на число тем, размерность Θ — число тем на число документов в обучении.
 +
 +
'''Файлы:'''
 +
* [[Медиа:Phi-theta-PLSA.rar‎ | Матрицы модели PLSA]]
 +
* [[Медиа:Phi-theta-Reg.rar | Матрицы модели ARTM]]
 +
 +
 +
'''Статьи:'''
 +
<ref name="potapenko13robust"/>
 +
 +
== Литература ==
 +
<references/>
== См. также ==
== См. также ==
* [[Тематическое моделирование]]
* [[Тематическое моделирование]]
-
* [[Вероятностные тематические модели (курс лекций, К.В.Воронцов)]]. Текст: [[Media:Voron-2013-ptm.pdf|(PDF, 500 КБ)]]. Презентация [[Media:Voron-ML-TopicModels-slides.pdf| (PDF,&nbsp;1&nbsp;МБ)]].
+
* [[Аддитивная регуляризация тематических моделей]]
-
* К.В.Воронцов. Научный семинар по вероятностным тематическим моделям, 23 апреля 2013. '''[[Media:voron-viniti-23apr2013.pdf|(PDF,&nbsp;2.0&nbsp;МБ)]]'''.
+
* [[BigARTM]]
 +
* ''Воронцов К. В.'' [[Media:voron17survey-artm.pdf|Вероятностное тематическое моделирование: теория, модели, алгоритмы и проект BigARTM]]. 2020.
* Лекция по латентному размещению Дирихле в рамках спецкурса [[bmmo|БММО]] [[Media:BMMO11_14.pdf|(PDF, 480 КБ)]].
* Лекция по латентному размещению Дирихле в рамках спецкурса [[bmmo|БММО]] [[Media:BMMO11_14.pdf|(PDF, 480 КБ)]].
-
 
-
<references/>
 
{{stub}}
{{stub}}

Версия 14:56, 27 июля 2020

Содержание

Коллекции текстовых документов для экспериментов по тематическому моделированию.

Коллекция RuDis

Документы представляют собой коллекцию авторефератов диссертаций на русском языке.

Предварительная обработка: отбрасывание стоп-слов, лемматизация, формирование матрицы частот.

Все данные представлены в числовом виде, исходные тексты и словарь не прилагаются.

Элементами словаря являются отдельные слова (словосочетания не выделялись).

Длина словаря: 20211 слов.

Число документов: 2000 в обучающей выборке, 200 в контрольной выборке.

Разделение на обучающую выборку и контрольную — случайное.

Формат данных: заголовок коллекции содержит две строки:

число документов
число слов в словаре

далее для каждого документа в файле записано по три строки:

число различных слов в документе
идентификаторы слов через пробел, в порядке возрастания идентификаторов
частоты соответствующих слов (сколько раз слово встретилось в документе) через пробел

Файлы: Архив RAR, 4.5 MБ

  • RuDisOld_t.txt — обучающая выборка
  • RuDisOld_c.txt — контрольная выборка

Статьи: [1]

Коллекция NIPS

Документы представляют собой статьи конференции NIPS на английском языке.

Предварительная обработка: отбрасывание стоп-слов, стемминг, формирование матрицы частот.

Все данные представлены в числовом виде, исходные тексты и словарь не прилагаются.

Элементами словаря являются отдельные слова (словосочетания не выделялись).

Длина словаря: 13649 слов.

Число документов: 1566 в обучающей выборке, 174 в контрольной выборке.

Разделение на обучающую выборку и контрольную — случайное.

Формат данных: тот же, что для коллекции RuDis

Файлы: Архив RAR, 1.5 MБ

  • NIPSOld_t.txt — обучающая выборка
  • NIPSOld_c.txt — контрольная выборка

Матрицы Φ и Θ

На коллекции NIPS была построена тематическая модель PLSA со 100 темами, а также модель ARTM с разреженными декоррелированными предметными и сглаженными фоновыми темами (90 и 10 соответственно). Полученные матрицы Φ и Θ могут использоваться для генерации полумодельных данных.

Формат данных: элементы разделены пробелами и символами новой строки. Размерность Φ — длина словаря на число тем, размерность Θ — число тем на число документов в обучении.

Файлы:

Статьи: [1]

Литература


См. также

Личные инструменты