BigARTM
Материал из MachineLearning.
(переработка) |
|||
Строка 8: | Строка 8: | ||
==Теоретическое введение== | ==Теоретическое введение== | ||
+ | {{main|Тематическое моделирование}} | ||
''Вероятностное тематическое моделирование'' — это современный инструмент статистического анализа текстов, предназначенный для выявления тематики коллекций документов. Тематическая модель описывает каждую тему дискретным распределением на множестве терминов, каждый документ — дискретным распределением на множестве тем. Тематические модели используются для информационного поиска, классификации, категоризации, аннотирования, сегментации текстов. | ''Вероятностное тематическое моделирование'' — это современный инструмент статистического анализа текстов, предназначенный для выявления тематики коллекций документов. Тематическая модель описывает каждую тему дискретным распределением на множестве терминов, каждый документ — дискретным распределением на множестве тем. Тематические модели используются для информационного поиска, классификации, категоризации, аннотирования, сегментации текстов. | ||
- | + | Тематическая модель — это представление наблюдаемого условного распределения <tex>p(w|d)</tex> терминов (слов или словосочетаний) <tex>w</tex> в документах <tex>d</tex> коллекции <tex>D</tex>: | |
- | + | ::<tex>p(w|d) = \sum_{t\in T} p(w|t) p(t|d),</tex> | |
- | + | где <tex>T</tex> — множество тем; | |
- | + | :<tex>\phi_{wt} = p(w|t)</tex> — неизвестное распределение терминов в теме <tex>t</tex>; | |
- | + | :<tex>\theta_{td} = p(t|d)</tex> — неизвестное распределение тем в документе <tex>d</tex>. | |
- | + | ||
- | + | Параметры тематической модели — матрицы <tex>\Phi=(\phi_{wt})</tex> и <tex>\Theta=(\theta_{td})</tex> находятся путём решения задачи максимизации правдоподобия | |
+ | ::<tex>\sum_{d\in D} \sum_{w\in d} n_{dw}\log \sum_{t\in T} \phi_{wt}\theta_{td} \to \max_{\Phi,\Theta} ,</tex> | ||
+ | при ограничениях нормировки и неотрицательности | ||
+ | ::<tex>\sum_w \phi_{wt} = 1,\; \sum_t \theta_{td} = 1,\; \phi_{wt} \geq 0,\; \theta_{td}\geq 0, </tex> | ||
+ | где <tex>n_{dw}</tex> — число вхождений слова <tex>w</tex> в документ <tex>d</tex>. | ||
+ | |||
+ | Для решения обычно используется [[EM-алгоритм]], который сходится к одному из локальных решений. | ||
+ | |||
+ | Данная задача некорректно поставлена и имеет в общем случае бесконечно много решений вида | ||
+ | <tex>(\Phi S) (S^{-1}\Theta) = \Phi\Theta</tex>. | ||
+ | Отсюда вытекают проблемы неустойчивости и плохой интерпретируемости тематических моделей. | ||
===Аддитивная регуляризация тематических моделей === | ===Аддитивная регуляризация тематических моделей === | ||
- | АРТМ — | + | {{main|АРТМ}} |
- | + | ||
- | + | Для решения проблемы неединственности и неустойчивости принято использовать регуляризацию — накладывать дополнительные ограничения на искомое решение. | |
- | + | ||
- | + | Подход АРТМ основан на идее многокритериальной регуляризации. Он позволяет строить модели, удовлетворяющие многим ограничениям одновременно. Каждое ограничение формализуется в виде регуляризатора — оптимизационного критерия, зависящего от параметров модели. Взвешенная сума всех таких критериев максимизируется совместно с основным критерием правдоподобия. | |
+ | |||
+ | Для решения задачи регуляризованного правдоподобия используется EM-алгоритм с модифицированными формулами M-шага. | ||
+ | Благодаря аддитивности регуляризаторов, модификация EM-алгоритма очень проста. | ||
+ | Достаточно добавить производные регуляризатора по параметрам модели в формулы М-шага. | ||
- | + | Преимущества подхода АРТМ: | |
- | * | + | * Многие байесовские тематические модели (или заложенные в них идеи) удаётся переформулировать через регуляризаторы. |
+ | * В АРТМ регуляризаторы не обязаны иметь вероятностный смысл. | ||
+ | * Суммируя регуляризаторы, взятые из разных моделей, можно строить многоцелевые комбинированные модели. | ||
+ | * АРТМ проще, чем байесовский подход. Тематические модели в АРТМ легче понимать, легче выводить и легче комбинировать. | ||
+ | * Снижается порог вхождения в область тематического моделирования для исследователей из смежных областей. | ||
- | |||
Для комбинирования регуляризаторов в АРТМ необходимо продумывать ''стратегию регуляризации'': | Для комбинирования регуляризаторов в АРТМ необходимо продумывать ''стратегию регуляризации'': | ||
* какие регуляризаторы необходимы в данной задаче; | * какие регуляризаторы необходимы в данной задаче; | ||
* какие регуляризаторы должны работать одновременно, какие друг за другом или попеременно, делая необходимую подготовительную работу; | * какие регуляризаторы должны работать одновременно, какие друг за другом или попеременно, делая необходимую подготовительную работу; | ||
* как менять коэффициент регуляризации каждого регуляризатора в ходе итераций: по каким условиям включать, усиливать, ослаблять и отключать каждый регуляризатор. | * как менять коэффициент регуляризации каждого регуляризатора в ходе итераций: по каким условиям включать, усиливать, ослаблять и отключать каждый регуляризатор. | ||
+ | |||
+ | Ограничения подхода АРТМ: | ||
+ | * Коэффициенты регуляризации приходится подбирать вручную. Автоматическая коррекция стратегий регуляризации в АРТМ пока является открытой проблемой. | ||
===Регуляризаторы=== | ===Регуляризаторы=== | ||
Строка 85: | Строка 105: | ||
Мы рекомендуем использовать одну сглаженную тему, чтобы моделировать общую лексику языка, а к остальным темам применять регуляризаторы разреживания и декоррелирования, чтобы помочь тематической модели выделить в них специфические темы предметных областей данной текстовой коллекции. | Мы рекомендуем использовать одну сглаженную тему, чтобы моделировать общую лексику языка, а к остальным темам применять регуляризаторы разреживания и декоррелирования, чтобы помочь тематической модели выделить в них специфические темы предметных областей данной текстовой коллекции. | ||
- | ==Функциональные возможности== | + | ===Сравнение с байесовскими методами обучения тематических моделей === |
+ | Вероятностное тематическое моделирование развивается, главным образом, в рамках [[байесовское обучение|байесовского обучения]] и [[графическая модель|графических моделей]]. В байесовском подходе коллекция текстов описывается единой вероятностной порождающей моделью, при этом дополнительные знания и предположения формализуются с помощью априорных распределений. | ||
+ | |||
+ | Это не очень хорошо по нескольким причинам: | ||
+ | * Не всякого рода знания удобно формализовать через априорные распределения. Попытка учесть больше знаний, чтобы построить более адекватную модель, приводит к значительному усложнению математического аппарата. В литературе почти нет работ по комбинированию тематических моделей, несмотря на их очевидную практическую востребованность. | ||
+ | * Не все верят, что естественный язык можно рассматривать как чисто статистическое явление. Одна из основных тенденций вычислительной лингвистики — создание гибридных моделей, объединяющих лучшие достижения статистических и лингвистических подходов. Лингвистические знания не всегда возможно описать на вероятностном языке. | ||
+ | * Многие байесовские модели используют априорные распределения Дирихле, имеющие весьма слабые лингвистические обоснования. Они не моделируют какие-либо явления естественного языка. Зато они удобны для математических выкладок благодаря свойству сопряжённости с мультиномиальным распределением. | ||
+ | * Априорное распределение Дирихле является слишком слабым регуляризатором. Проблему неустойчивости он не решает. | ||
+ | |||
+ | ==Функциональные возможности BigARTM== | ||
* Регуляризаторы: сглаживание, разреживание, декоррелирование, отбор тем | * Регуляризаторы: сглаживание, разреживание, декоррелирование, отбор тем | ||
Строка 92: | Строка 121: | ||
* Возможность добавления новых регуляризаторов и метрик качества | * Возможность добавления новых регуляризаторов и метрик качества | ||
- | ==Архитектура== | + | ==Архитектура BigARTM== |
Реализация ядра библиотеки на С++, интерфейсы на C++, Python. | Реализация ядра библиотеки на С++, интерфейсы на C++, Python. | ||
- | ==Разработчики== | + | ==Разработчики BigARTM== |
*[[Участник:Фрей Александр|Александр Фрей]] — генеральный архитектор, гуру | *[[Участник:Фрей Александр|Александр Фрей]] — генеральный архитектор, гуру | ||
*[[Участник:Vokov|Константин Воронцов]] — идеолог | *[[Участник:Vokov|Константин Воронцов]] — идеолог |
Версия 07:44, 14 декабря 2014
|
BigARTM — открытая библиотека для тематического моделирования больших коллекций текстовых документов. Параллельная распределённая реализация методов вероятностного тематического моделирования на основе аддитивной регуляризации.
ARTM (англ.) — Additive Regularization for Topic Modeling.
АРТМ (рус.) — Аддитивная Регуляризация Тематических Моделей.
Теоретическое введение
Вероятностное тематическое моделирование — это современный инструмент статистического анализа текстов, предназначенный для выявления тематики коллекций документов. Тематическая модель описывает каждую тему дискретным распределением на множестве терминов, каждый документ — дискретным распределением на множестве тем. Тематические модели используются для информационного поиска, классификации, категоризации, аннотирования, сегментации текстов.
Тематическая модель — это представление наблюдаемого условного распределения терминов (слов или словосочетаний) в документах коллекции :
где — множество тем;
- — неизвестное распределение терминов в теме ;
- — неизвестное распределение тем в документе .
Параметры тематической модели — матрицы и находятся путём решения задачи максимизации правдоподобия
при ограничениях нормировки и неотрицательности
где — число вхождений слова в документ .
Для решения обычно используется EM-алгоритм, который сходится к одному из локальных решений.
Данная задача некорректно поставлена и имеет в общем случае бесконечно много решений вида . Отсюда вытекают проблемы неустойчивости и плохой интерпретируемости тематических моделей.
Аддитивная регуляризация тематических моделей
Для решения проблемы неединственности и неустойчивости принято использовать регуляризацию — накладывать дополнительные ограничения на искомое решение.
Подход АРТМ основан на идее многокритериальной регуляризации. Он позволяет строить модели, удовлетворяющие многим ограничениям одновременно. Каждое ограничение формализуется в виде регуляризатора — оптимизационного критерия, зависящего от параметров модели. Взвешенная сума всех таких критериев максимизируется совместно с основным критерием правдоподобия.
Для решения задачи регуляризованного правдоподобия используется EM-алгоритм с модифицированными формулами M-шага. Благодаря аддитивности регуляризаторов, модификация EM-алгоритма очень проста. Достаточно добавить производные регуляризатора по параметрам модели в формулы М-шага.
Преимущества подхода АРТМ:
- Многие байесовские тематические модели (или заложенные в них идеи) удаётся переформулировать через регуляризаторы.
- В АРТМ регуляризаторы не обязаны иметь вероятностный смысл.
- Суммируя регуляризаторы, взятые из разных моделей, можно строить многоцелевые комбинированные модели.
- АРТМ проще, чем байесовский подход. Тематические модели в АРТМ легче понимать, легче выводить и легче комбинировать.
- Снижается порог вхождения в область тематического моделирования для исследователей из смежных областей.
Для комбинирования регуляризаторов в АРТМ необходимо продумывать стратегию регуляризации:
- какие регуляризаторы необходимы в данной задаче;
- какие регуляризаторы должны работать одновременно, какие друг за другом или попеременно, делая необходимую подготовительную работу;
- как менять коэффициент регуляризации каждого регуляризатора в ходе итераций: по каким условиям включать, усиливать, ослаблять и отключать каждый регуляризатор.
Ограничения подхода АРТМ:
- Коэффициенты регуляризации приходится подбирать вручную. Автоматическая коррекция стратегий регуляризации в АРТМ пока является открытой проблемой.
Регуляризаторы
Следующие регуляризаторы реализованы в библиотеке BigARTM.
- Сглаживание распределений терминов в темах. Используется для выделения фоновых тем, собирающих общую лексику языка или общую лексику данной коллекции.
- Сглаживание распределений тем в документах. Используется для выделения фоновых слов в каждом документах.
- Разреживание распределений терминов в темах. Используется для выделения лексических ядер предметных тем как относительно небольшой доли слов словаря.
- Разреживание распределений тем в документах. Используется для выделения относительно небольшой доли предметных тем в каждом документах.
- Декоррелирование распределений терминов в темах. Используется для повышения различности лексических ядер предметных тем.
- Отбор тем путём обнуления вероятности темы во всех документах. Используется для выведения из модели незначимых тем. Позволяет оптимизировать число тем, начиная с заведомо избыточного числа тем и постепенно удаляя ненужные.
Список регуляризаторов будет пополняться.
Метрики качества
Следующие метрики качества реализованы в библиотеке BigARTM.
- Перплексия
- Разреженность
- Средняя чистота тем
- Средняя контрастность тем
- Средний размер лексического ядра тем
- Доля фоновых слов во всей коллекции
Список метрик качества будет пополняться.
Мультимодальные тематические модели
Мультимодальные тематические модели учитывают метаданные документа — информацию, дополнительную по отношению к основному тексту. Метаданные могут помогать выявлять тематику документа, и, наоборот, определив тематику документа по его тексту, можно автоматически формировать метаданные, восполнять пропущенные метаданные, строить рекомендации для пользователей.
В тематических моделях могут учитываться метаданные различных типов: авторы, метки времени создания документа или его фрагментов, категории, изображения и отдельные элементы изображений, цитируемые документы, цитируемые авторы, пользователи документов и т.д.
BigARTM реализует мультимодальные модели, позволяющие обрабатывать метаданные любого числа типов одновременно. Для каждой модальности создаётся словарь возможных значений. Вхождение элементов каждой модальности рассматривается точно так же, как вхождение терминов в текст. По сути дела, термины (слова и словосочетания) — это лишь элементы одной из модальностей. Мультимодальная тематическая модель строит для каждой темы дискретное вероятностное распределение на конечном множестве (словаре) всех элементов данной модальности.
Модели PLSA и LDA
В библиотеке BigARTM легко реализовать две самые известные модели — PLSA и LDA, но нет смысла выделять их особо.
- PLSA — это тематическая модель без регуляризаторов.
- LDA — это тематическая модель, в которой каждая тема сглажена одним и тем же регуляризатором Дирихле.
Мы рекомендуем использовать одну сглаженную тему, чтобы моделировать общую лексику языка, а к остальным темам применять регуляризаторы разреживания и декоррелирования, чтобы помочь тематической модели выделить в них специфические темы предметных областей данной текстовой коллекции.
Сравнение с байесовскими методами обучения тематических моделей
Вероятностное тематическое моделирование развивается, главным образом, в рамках байесовского обучения и графических моделей. В байесовском подходе коллекция текстов описывается единой вероятностной порождающей моделью, при этом дополнительные знания и предположения формализуются с помощью априорных распределений.
Это не очень хорошо по нескольким причинам:
- Не всякого рода знания удобно формализовать через априорные распределения. Попытка учесть больше знаний, чтобы построить более адекватную модель, приводит к значительному усложнению математического аппарата. В литературе почти нет работ по комбинированию тематических моделей, несмотря на их очевидную практическую востребованность.
- Не все верят, что естественный язык можно рассматривать как чисто статистическое явление. Одна из основных тенденций вычислительной лингвистики — создание гибридных моделей, объединяющих лучшие достижения статистических и лингвистических подходов. Лингвистические знания не всегда возможно описать на вероятностном языке.
- Многие байесовские модели используют априорные распределения Дирихле, имеющие весьма слабые лингвистические обоснования. Они не моделируют какие-либо явления естественного языка. Зато они удобны для математических выкладок благодаря свойству сопряжённости с мультиномиальным распределением.
- Априорное распределение Дирихле является слишком слабым регуляризатором. Проблему неустойчивости он не решает.
Функциональные возможности BigARTM
- Регуляризаторы: сглаживание, разреживание, декоррелирование, отбор тем
- Метрики качества: перплексия, разреженность, чистота тем, контрастность тем, размер ядер тем
- Мультимодальные тематические модели
- Возможность добавления новых регуляризаторов и метрик качества
Архитектура BigARTM
Реализация ядра библиотеки на С++, интерфейсы на C++, Python.
Разработчики BigARTM
- Александр Фрей — генеральный архитектор, гуру
- Константин Воронцов — идеолог
- Мурат Апишев — разработчик
Публикации
- Воронцов К. В. Аддитивная регуляризация тематических моделей коллекций текстовых документов // Доклады РАН. 2014. — Т. 455., №3. 268–271
- Воронцов К. В. Потапенко А. А. Регуляризация вероятностных тематических моделей для повышения интерпретируемости и определения числа тем // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 4–8 июня 2014 г.) Вып.13 (20). М: Изд-во РГГУ, 2014. C.676–687.
- Vorontsov K. V. Additive Regularization for Topic Models of Text Collections // Doklady Mathematics. 2014, Pleiades Publishing, Ltd. — Vol. 89, No. 3, pp. 301–304.
- Vorontsov K. V., Potapenko A. A. Tutorial on Probabilistic Topic Modeling: Additive Regularization for Stochastic Matrix Factorization // AIST’2014, Analysis of Images, Social networks and Texts. Springer International Publishing Switzerland, 2014. Communications in Computer and Information Science (CCIS). Vol. 436. pp. 29–46.
- Vorontsov K. V., Potapenko A. A. Additive Regularization of Topic Models // Machine Learning Journal. Special Issue “Data Analysis and Intelligent Optimization with Applications”.
Ссылки
- Документация: bigartm.org
- Страница на гитхабе: github.com/bigartm
- Видеозапись семинара в Яндексе 3 декабря 2014
См. также
- Тематическое моделирование
- Аддитивная регуляризация тематических моделей
- Вероятностные тематические модели — семестровый спецкурс, кафедра ММП ВМиК МГУ
- Коллекции документов для тематического моделирования
- Воронцов К.В. Лекции по тематическому моделированию. Voron-2013-ptm.pdf.
- Воронцов К.В. Практическое задание по тематическому моделированию. Voron-2014-task-ptm.pdf