BigARTM

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Модели PLSA и LDA)
(Модели PLSA и LDA)
Строка 99: Строка 99:
===Модели PLSA и LDA===
===Модели PLSA и LDA===
-
В библиотеке BigARTM легко реализовать две самые известные модели — [[PLSA]] и [[LDA]], но нет смысла выделять их особо.
+
В библиотеке BigARTM легко реализовать две самые известные модели — [[Вероятностный латентный семантический анализ|PLSA]] и [[Латентное размещение Дирихле|LDA]], но нет смысла выделять их особо.
-
* [[PLSA]] — это тематическая модель без регуляризаторов.
+
* PLSA (Probabilistic Latent Semantic Analysis) — это тематическая модель без регуляризаторов.
-
* [[LDA]] — это тематическая модель, в которой каждая тема сглажена одним и тем же регуляризатором Дирихле.
+
* LDA (Latent Dirichlet Allocation) — это тематическая модель, в которой каждая тема сглажена одним и тем же регуляризатором Дирихле.
Мы рекомендуем использовать одну сглаженную тему, чтобы моделировать общую лексику языка, а к остальным темам применять регуляризаторы разреживания и декоррелирования, чтобы помочь тематической модели выделить в них специфические темы предметных областей данной текстовой коллекции.
Мы рекомендуем использовать одну сглаженную тему, чтобы моделировать общую лексику языка, а к остальным темам применять регуляризаторы разреживания и декоррелирования, чтобы помочь тематической модели выделить в них специфические темы предметных областей данной текстовой коллекции.

Версия 07:48, 14 декабря 2014

Содержание

BigARTM — открытая библиотека для тематического моделирования больших коллекций текстовых документов. Параллельная распределённая реализация методов вероятностного тематического моделирования на основе аддитивной регуляризации.

ARTM (англ.) — Additive Regularization for Topic Modeling.

АРТМ (рус.) — Аддитивная Регуляризация Тематических Моделей.

Теоретическое введение

Вероятностное тематическое моделирование — это современный инструмент статистического анализа текстов, предназначенный для выявления тематики коллекций документов. Тематическая модель описывает каждую тему дискретным распределением на множестве терминов, каждый документ — дискретным распределением на множестве тем. Тематические модели используются для информационного поиска, классификации, категоризации, аннотирования, сегментации текстов.

Тематическая модель — это представление наблюдаемого условного распределения p(w|d) терминов (слов или словосочетаний) w в документах d коллекции D:

p(w|d) = \sum_{t\in T} p(w|t) p(t|d),

где T — множество тем;

\phi_{wt} = p(w|t) — неизвестное распределение терминов в теме t;
\theta_{td} = p(t|d) — неизвестное распределение тем в документе d.

Параметры тематической модели — матрицы \Phi=(\phi_{wt}) и \Theta=(\theta_{td}) находятся путём решения задачи максимизации правдоподобия

\sum_{d\in D} \sum_{w\in d} n_{dw}\log \sum_{t\in T} \phi_{wt}\theta_{td} \to \max_{\Phi,\Theta} ,

при ограничениях нормировки и неотрицательности

\sum_w \phi_{wt} = 1,\; \sum_t \theta_{td} = 1,\; \phi_{wt} \geq 0,\; \theta_{td}\geq 0,

где n_{dw} — число вхождений слова w в документ d.

Для решения обычно используется EM-алгоритм, который сходится к одному из локальных решений.

Данная задача некорректно поставлена и имеет в общем случае бесконечно много решений вида (\Phi S) (S^{-1}\Theta) = \Phi\Theta. Отсюда вытекают проблемы неустойчивости и плохой интерпретируемости тематических моделей.

Аддитивная регуляризация тематических моделей

Основная статья: АРТМ

Для решения проблемы неединственности и неустойчивости принято использовать регуляризацию — накладывать дополнительные ограничения на искомое решение.

Подход АРТМ основан на идее многокритериальной регуляризации. Он позволяет строить модели, удовлетворяющие многим ограничениям одновременно. Каждое ограничение формализуется в виде регуляризатора — оптимизационного критерия, зависящего от параметров модели. Взвешенная сума всех таких критериев максимизируется совместно с основным критерием правдоподобия.

Для решения задачи регуляризованного правдоподобия используется EM-алгоритм с модифицированными формулами M-шага. Благодаря аддитивности регуляризаторов, модификация EM-алгоритма очень проста. Достаточно добавить производные регуляризатора по параметрам модели в формулы М-шага.

Преимущества подхода АРТМ:

  • Многие байесовские тематические модели (или заложенные в них идеи) удаётся переформулировать через регуляризаторы.
  • В АРТМ регуляризаторы не обязаны иметь вероятностный смысл.
  • Суммируя регуляризаторы, взятые из разных моделей, можно строить многоцелевые комбинированные модели.
  • АРТМ проще, чем байесовский подход. Тематические модели в АРТМ легче понимать, легче выводить и легче комбинировать.
  • Снижается порог вхождения в область тематического моделирования для исследователей из смежных областей.

Для комбинирования регуляризаторов в АРТМ необходимо продумывать стратегию регуляризации:

  • какие регуляризаторы необходимы в данной задаче;
  • какие регуляризаторы должны работать одновременно, какие друг за другом или попеременно, делая необходимую подготовительную работу;
  • как менять коэффициент регуляризации каждого регуляризатора в ходе итераций: по каким условиям включать, усиливать, ослаблять и отключать каждый регуляризатор.

Ограничения подхода АРТМ:

  • Коэффициенты регуляризации приходится подбирать вручную. Автоматическая коррекция стратегий регуляризации в АРТМ пока является открытой проблемой.

Регуляризаторы

Следующие регуляризаторы реализованы в библиотеке BigARTM.

  • Сглаживание распределений терминов в темах. Используется для выделения фоновых тем, собирающих общую лексику языка или общую лексику данной коллекции.
  • Сглаживание распределений тем в документах. Используется для выделения фоновых слов в каждом документах.
  • Разреживание распределений терминов в темах. Используется для выделения лексических ядер предметных тем как относительно небольшой доли слов словаря.
  • Разреживание распределений тем в документах. Используется для выделения относительно небольшой доли предметных тем в каждом документах.
  • Декоррелирование распределений терминов в темах. Используется для повышения различности лексических ядер предметных тем.
  • Отбор тем путём обнуления вероятности темы во всех документах. Используется для выведения из модели незначимых тем. Позволяет оптимизировать число тем, начиная с заведомо избыточного числа тем и постепенно удаляя ненужные.

Список регуляризаторов будет пополняться.

Метрики качества

Следующие метрики качества реализованы в библиотеке BigARTM.

  • Перплексия
  • Разреженность
  • Средняя чистота тем
  • Средняя контрастность тем
  • Средний размер лексического ядра тем
  • Доля фоновых слов во всей коллекции

Список метрик качества будет пополняться.

Мультимодальные тематические модели

Мультимодальные тематические модели учитывают метаданные документа — информацию, дополнительную по отношению к основному тексту. Метаданные могут помогать выявлять тематику документа, и, наоборот, определив тематику документа по его тексту, можно автоматически формировать метаданные, восполнять пропущенные метаданные, строить рекомендации для пользователей.

В тематических моделях могут учитываться метаданные различных типов: авторы, метки времени создания документа или его фрагментов, категории, изображения и отдельные элементы изображений, цитируемые документы, цитируемые авторы, пользователи документов и т.д.

BigARTM реализует мультимодальные модели, позволяющие обрабатывать метаданные любого числа типов одновременно. Для каждой модальности создаётся словарь возможных значений. Вхождение элементов каждой модальности рассматривается точно так же, как вхождение терминов в текст. По сути дела, термины (слова и словосочетания) — это лишь элементы одной из модальностей. Мультимодальная тематическая модель строит для каждой темы дискретное вероятностное распределение на конечном множестве (словаре) всех элементов данной модальности.

Модели PLSA и LDA

В библиотеке BigARTM легко реализовать две самые известные модели — PLSA и LDA, но нет смысла выделять их особо.

  • PLSA (Probabilistic Latent Semantic Analysis) — это тематическая модель без регуляризаторов.
  • LDA (Latent Dirichlet Allocation) — это тематическая модель, в которой каждая тема сглажена одним и тем же регуляризатором Дирихле.

Мы рекомендуем использовать одну сглаженную тему, чтобы моделировать общую лексику языка, а к остальным темам применять регуляризаторы разреживания и декоррелирования, чтобы помочь тематической модели выделить в них специфические темы предметных областей данной текстовой коллекции.

Сравнение с байесовскими методами обучения тематических моделей

Вероятностное тематическое моделирование развивается, главным образом, в рамках байесовского обучения и графических моделей. В байесовском подходе коллекция текстов описывается единой вероятностной порождающей моделью, при этом дополнительные знания и предположения формализуются с помощью априорных распределений.

Это не очень хорошо по нескольким причинам:

  • Не всякого рода знания удобно формализовать через априорные распределения. Попытка учесть больше знаний, чтобы построить более адекватную модель, приводит к значительному усложнению математического аппарата. В литературе почти нет работ по комбинированию тематических моделей, несмотря на их очевидную практическую востребованность.
  • Не все верят, что естественный язык можно рассматривать как чисто статистическое явление. Одна из основных тенденций вычислительной лингвистики — создание гибридных моделей, объединяющих лучшие достижения статистических и лингвистических подходов. Лингвистические знания не всегда возможно описать на вероятностном языке.
  • Многие байесовские модели используют априорные распределения Дирихле, имеющие весьма слабые лингвистические обоснования. Они не моделируют какие-либо явления естественного языка. Зато они удобны для математических выкладок благодаря свойству сопряжённости с мультиномиальным распределением.
  • Априорное распределение Дирихле является слишком слабым регуляризатором. Проблему неустойчивости он не решает.

Функциональные возможности BigARTM

  • Регуляризаторы: сглаживание, разреживание, декоррелирование, отбор тем
  • Метрики качества: перплексия, разреженность, чистота тем, контрастность тем, размер ядер тем
  • Мультимодальные тематические модели
  • Возможность добавления новых регуляризаторов и метрик качества

Архитектура BigARTM

Реализация ядра библиотеки на С++, интерфейсы на C++, Python.

Разработчики BigARTM

Публикации

  1. Воронцов К. В. Аддитивная регуляризация тематических моделей коллекций текстовых документов // Доклады РАН. 2014. — Т. 455., №3. 268–271
  2. Воронцов К. В. Потапенко А. А. Регуляризация вероятностных тематических моделей для повышения интерпретируемости и определения числа тем // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 4–8 июня 2014 г.) Вып.13 (20). М: Изд-во РГГУ, 2014. C.676–687.
  3. Vorontsov K. V. Additive Regularization for Topic Models of Text Collections // Doklady Mathematics. 2014, Pleiades Publishing, Ltd. — Vol. 89, No. 3, pp. 301–304.
  4. Vorontsov K. V., Potapenko A. A. Tutorial on Probabilistic Topic Modeling: Additive Regularization for Stochastic Matrix Factorization // AIST’2014, Analysis of Images, Social networks and Texts. Springer International Publishing Switzerland, 2014. Communications in Computer and Information Science (CCIS). Vol. 436. pp. 29–46.
  5. Vorontsov K. V., Potapenko A. A. Additive Regularization of Topic Models // Machine Learning Journal. Special Issue “Data Analysis and Intelligent Optimization with Applications”.

Ссылки

См. также

Личные инструменты