BigARTM

Материал из MachineLearning.

Перейти к: навигация, поиск

Содержание

BigARTM — открытая библиотека для тематического моделирования больших коллекций текстовых документов. Параллельная распределённая реализация методов вероятностного тематического моделирования на основе аддитивной регуляризации.

ARTM (англ.) — Additive Regularization for Topic Modeling.

АРТМ (рус.) — Аддитивная Регуляризация Тематических Моделей.

Теоретическое введение

Вероятностное тематическое моделирование

Вероятностное тематическое моделирование — это современный инструмент статистического анализа текстов, предназначенный для выявления тематики коллекций документов. Тематическая модель описывает каждую тему дискретным распределением на множестве терминов, каждый документ — дискретным распределением на множестве тем. Тематические модели используются для информационного поиска, классификации, категоризации, аннотирования, сегментации текстов.

Байесовское обучение тематических моделей

Вероятностное тематическое моделирование развивается, главным образом, в рамках байесовского обучения и графических моделей. В байесовском подходе коллекция текстов описывается единой вероятностной порождающей моделью, при этом дополнительные знания и предположения формализуются с помощью априорных распределений. Это не очень хорошо по нескольким причинам:

  • Не всякого рода знания удобно формализовать через априорные распределения. Попытка учесть побольше знаний, чтобы построить более адекватную модель, приводит к значительному усложнению математического аппарата. В литературе почти нет работ по комбинированию тематических моделей, несмотря на их очевидную практическую востребованность.
  • Не все верят, что естественный язык можно рассматривать как чисто статистическое явление. Одна из основных тенденций вычислительной лингвистики — создание гибридных моделей, объединяющих лучшие достижения статистических и лингвистических подходов. Лингвистические знания не всегда возможно описать на вероятностном языке.
  • Многие байесовские модели используют априорные распределения Дирихле, имеющие весьма слабые лингвистические обоснования. Они не моделируют какие-либо явления естественного языка. Зато они удобны для математических выкладок благодаря свойству сопряжённости с мультиномиальным распределением.
  • На фоне увлекательных математических проблем байесовского вывода осталась практически незамеченной другая фундаментальная математическая проблема. Задача вероятностного тематического моделирования, оказывается, является некорректно поставленной и имеет в общем случае бесконечное множество решений. Отсюда вытекают проблемы неустойчивости и плохой интерпретируемости тематических моделей.

Некорректно поставленные задачи принято решать с помощью регуляризации — введения дополнительных ограничений. Априорное распределение Дирихле — это тоже регуляризатор, но, как оказывается, слишком слабый. Проблему неустойчивости он не решает.

Аддитивная регуляризация тематических моделей

АРТМ — это альтернативный подход, свободный от избыточных вероятностных предположений. Он основан на идее многокритериальной регуляризации. Мы хотим строить модели, удовлетворяющие многим ограничениям одновременно. Каждое ограничение формализуется в виде регуляризатора — оптимизационного критерия, зависящего от параметров модели. Взвешенная сума всех таких критериев максимизируется совместно с основным критерием правдоподобия. Это хорошо по нескольким причинам:

  • Регуляризаторы могут быть любыми, не обязательно вероятностными. Оптимизационный критерий — это один из самых распространённых универсальных инструментов формализации в математическом моделировании.
  • Байесовские модели в большинстве случаев удаётся переформулировать в терминах АРТМ.
  • Суммируя регуляризаторы, очень легко строить сколь угодно сложные комбинированные модели.
  • Радикально упрощается математический аппарат. Добавление регуляризатора не меняет структуру ЕМ-алгоритма, используемого для оптимизации — в формулах М-шага достаточно добавить производные регуляризатора по параметрам модели.
  • Тематические модели в АРТМ легче понимать, легче выводить и легче комбинировать. Снижается порог вхождения в область тематического моделирования для исследователей из смежных областей.

Бесплатного сыра не бывает. Что пока не очень хорошо в теории АРТМ:

  • Не проработана проблема выбора коэффициентов регуляризации. При каждом регуляризаторе имеется весовой коэффициент, который нельзя брать с потолка, так как модель может быть чувствительна к его выбору. Пока в экспериментах мы их подбираем вручную.
  • В байесовском подходе тоже есть такие параметры, как правило, в каждом априорном распределении. Но там есть общие методы их оптимизации. Для АРТМ планируется разработка многокритериальных методов оптимизации коэффициентов регуляризации.

Модели PLSA и LDA

В библиотеке BigARTM легко реализовать две самые известные модели — PLSA и LDA, но нет смысла выделять их особо.

  • PLSA — это тематическая модель без регуляризаторов.
  • LDA — это тематическая модель, в которой каждая тема сглажена одним и тем же регуляризатором Дирихле.

Мы рекомендуем использовать одну сглаженную тему, чтобы моделировать общую лексику языка, а к остальным темам применять регуляризаторы разреживания и декоррелирования, чтобы помочь тематической модели выделить в них специфические темы предметных областей данной текстовой коллекции.

Функциональные возможности

  • Регуляризаторы: сглаживание, разреживание, декоррелирование, отбор тем
  • Метрики качества: перплексия, разреженность, чистота тем, контрастность тем, размер ядер тем
  • Мультимодальные тематические модели
  • Возможность добавления новых регуляризаторов и метрик качества

Архитектура

Реализация ядра библиотеки на С++, интерфейсы на C++, Python.

Разработчики

Публикации

  1. Воронцов К. В. Аддитивная регуляризация тематических моделей коллекций текстовых документов // Доклады РАН. 2014. — Т. 455., №3. 268–271
  2. Воронцов К. В. Потапенко А. А. Регуляризация вероятностных тематических моделей для повышения интерпретируемости и определения числа тем // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 4–8 июня 2014 г.) Вып.13 (20). М: Изд-во РГГУ, 2014. C.676–687.
  3. Vorontsov K. V. Additive Regularization for Topic Models of Text Collections // Doklady Mathematics. 2014, Pleiades Publishing, Ltd. — Vol. 89, No. 3, pp. 301–304.
  4. Vorontsov K. V., Potapenko A. A. Tutorial on Probabilistic Topic Modeling: Additive Regularization for Stochastic Matrix Factorization // AIST’2014, Analysis of Images, Social networks and Texts. Springer International Publishing Switzerland, 2014. Communications in Computer and Information Science (CCIS). Vol. 436. pp. 29–46.
  5. Vorontsov K. V., Potapenko A. A. Additive Regularization of Topic Models // Machine Learning Journal. Special Issue “Data Analysis and Intelligent Optimization with Applications”.

Ссылки

См. также

Личные инструменты