BigARTM
Материал из MachineLearning.
(→Ссылки) |
(Теория) |
||
Строка 4: | Строка 4: | ||
АРТМ ''(рус.)'' — Аддитивная Регуляризация Тематических Моделей. | АРТМ ''(рус.)'' — Аддитивная Регуляризация Тематических Моделей. | ||
+ | |||
+ | ==Теория== | ||
+ | Вероятностное тематическое моделирование — это современный инструмент статистического анализа текстов, предназначенный для выявления тематики коллекций документов. Тематическая модель описывает каждую тему дискретным распределением на множестве терминов, каждый документ — дискретным распределением на множестве тем. Тематические модели используются для информационного поиска, классификации, категоризации, аннотирования, сегментации текстов. | ||
+ | |||
+ | Вероятностное тематическое моделирование развивается, главным образом, в рамках [[байесовское обучение|байесовского обучения]] и [[графическая модель|графических моделей]]. В байесовском подходе коллекция текстов описывается единой вероятностной порождающей моделью, при этом дополнительные знания и предположения формализуются с помощью априорных распределений. Это не очень хорошо по нескольким причинам: | ||
+ | * Не всякого рода знания удобно формализовать через априорные распределения. Попытка учесть побольше знаний, чтобы построить более адекватную модель, приводит к значительному усложнению математического аппарата. В литературе почти нет работ по комбинированию тематических моделей, несмотря на их очевидную практическую востребованность. | ||
+ | * Не все верят, что естественный язык можно рассматривать как чисто статистическое явление. Одна из основных тенденций вычислительной лингвистики — создание гибридных моделей, объединяющих лучшие достижения статистических и лингвистических методов. Лингвистические знания не всегда возможно описать на вероятностном языке. | ||
+ | * Многие байесовские модели используют априорные распределения Дирихле, имеющие весьма слабые лингвистические обоснования. Они не моделируют какие-либо явления естественного языка. Зато они удобны для математических выкладок благодаря свойству сопряжённости с мультиномиальным распределением. | ||
+ | * На фоне увлекательных математических проблем байесовского вывода осталась практически незамеченной другая фундаментальная математическая проблема. Задача вероятностного тематического моделирования, оказывается, является некорректно поставленной и имеет в общем случае бесконечное множество решений. Отсюда вытекают проблемы неустойчивости и плохой интерпретируемости тематических моделей. | ||
+ | |||
+ | Некорректно поставленные задачи принято решать с помощью регуляризации — введения дополнительных ограничений. Априорное распределение Дирихле — это тоже регуляризатор, но, как оказывается, слишком слабый. Проблему неустойчивости он не решает. | ||
+ | |||
+ | АРТМ — это альтернативный подход, свободный от избыточных вероятностных предположений. Он основан на идее многокритериальной регуляризации. Мы хотим строить модели, удовлетворяющие многим ограничениям одновременно. Каждое ограничение формализуется в виде регуляризатора — оптимизационного критерия, зависящего от параметров модели. Взвешенная сума всех таких критериев максимизируется совместно с основным критерием правдоподобия. Это хорошо по нескольким причинам: | ||
+ | * Регуляризаторы могут быть любыми, не обязательно вероятностными. Оптимизационный критерий — это один из самых распространённых универсальных инструментов формализации в математическом моделировании. | ||
+ | * Суммируя регуляризаторы, очень легко строить сколь угодно сложные комбинированные модели. | ||
+ | * Радикально упрощается математический аппарат. Добавление регуляризатора не меняет структуру ЕМ-алгоритма, используемого для оптимизации — в формулах М-шага достаточно добавить производные регуляризатора по параметрам модели. | ||
+ | * Тематические модели в АРТМ легче понимать, легче выводить и легче комбинировать. Снижается порог вхождения в область тематического моделирования для исследователей из смежных областей. | ||
+ | |||
==Функциональные возможности== | ==Функциональные возможности== |
Версия 21:09, 12 декабря 2014
BigARTM — открытая библиотека для тематического моделирования больших коллекций текстовых документов. Параллельная распределённая реализация методов вероятностного тематического моделирования на основе аддитивной регуляризации.
ARTM (англ.) — Additive Regularization for Topic Modeling.
АРТМ (рус.) — Аддитивная Регуляризация Тематических Моделей.
Содержание |
Теория
Вероятностное тематическое моделирование — это современный инструмент статистического анализа текстов, предназначенный для выявления тематики коллекций документов. Тематическая модель описывает каждую тему дискретным распределением на множестве терминов, каждый документ — дискретным распределением на множестве тем. Тематические модели используются для информационного поиска, классификации, категоризации, аннотирования, сегментации текстов.
Вероятностное тематическое моделирование развивается, главным образом, в рамках байесовского обучения и графических моделей. В байесовском подходе коллекция текстов описывается единой вероятностной порождающей моделью, при этом дополнительные знания и предположения формализуются с помощью априорных распределений. Это не очень хорошо по нескольким причинам:
- Не всякого рода знания удобно формализовать через априорные распределения. Попытка учесть побольше знаний, чтобы построить более адекватную модель, приводит к значительному усложнению математического аппарата. В литературе почти нет работ по комбинированию тематических моделей, несмотря на их очевидную практическую востребованность.
- Не все верят, что естественный язык можно рассматривать как чисто статистическое явление. Одна из основных тенденций вычислительной лингвистики — создание гибридных моделей, объединяющих лучшие достижения статистических и лингвистических методов. Лингвистические знания не всегда возможно описать на вероятностном языке.
- Многие байесовские модели используют априорные распределения Дирихле, имеющие весьма слабые лингвистические обоснования. Они не моделируют какие-либо явления естественного языка. Зато они удобны для математических выкладок благодаря свойству сопряжённости с мультиномиальным распределением.
- На фоне увлекательных математических проблем байесовского вывода осталась практически незамеченной другая фундаментальная математическая проблема. Задача вероятностного тематического моделирования, оказывается, является некорректно поставленной и имеет в общем случае бесконечное множество решений. Отсюда вытекают проблемы неустойчивости и плохой интерпретируемости тематических моделей.
Некорректно поставленные задачи принято решать с помощью регуляризации — введения дополнительных ограничений. Априорное распределение Дирихле — это тоже регуляризатор, но, как оказывается, слишком слабый. Проблему неустойчивости он не решает.
АРТМ — это альтернативный подход, свободный от избыточных вероятностных предположений. Он основан на идее многокритериальной регуляризации. Мы хотим строить модели, удовлетворяющие многим ограничениям одновременно. Каждое ограничение формализуется в виде регуляризатора — оптимизационного критерия, зависящего от параметров модели. Взвешенная сума всех таких критериев максимизируется совместно с основным критерием правдоподобия. Это хорошо по нескольким причинам:
- Регуляризаторы могут быть любыми, не обязательно вероятностными. Оптимизационный критерий — это один из самых распространённых универсальных инструментов формализации в математическом моделировании.
- Суммируя регуляризаторы, очень легко строить сколь угодно сложные комбинированные модели.
- Радикально упрощается математический аппарат. Добавление регуляризатора не меняет структуру ЕМ-алгоритма, используемого для оптимизации — в формулах М-шага достаточно добавить производные регуляризатора по параметрам модели.
- Тематические модели в АРТМ легче понимать, легче выводить и легче комбинировать. Снижается порог вхождения в область тематического моделирования для исследователей из смежных областей.
Функциональные возможности
- Регуляризаторы: сглаживание, разреживание, декоррелирование, отбор тем
- Метрики качества: перплексия, разреженность, чистота тем, контрастность тем, размер ядер тем
- Мультимодальные тематические модели
- Возможность добавления новых регуляризаторов и метрик качества
Архитектура
Реализация ядра библиотеки на С++, интерфейсы на C++, Python.
Разработчики
- Александр Фрей — генеральный архитектор, гуру
- Константин Воронцов — идеолог
- Мурат Апишев — разработчик
Публикации
- Воронцов К. В. Аддитивная регуляризация тематических моделей коллекций текстовых документов // Доклады РАН. 2014. — Т. 455., №3. 268–271
- Воронцов К. В. Потапенко А. А. Регуляризация вероятностных тематических моделей для повышения интерпретируемости и определения числа тем // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 4–8 июня 2014 г.) Вып.13 (20). М: Изд-во РГГУ, 2014. C.676–687.
- Vorontsov K. V. Additive Regularization for Topic Models of Text Collections // Doklady Mathematics. 2014, Pleiades Publishing, Ltd. — Vol. 89, No. 3, pp. 301–304.
- Vorontsov K. V., Potapenko A. A. Tutorial on Probabilistic Topic Modeling: Additive Regularization for Stochastic Matrix Factorization // AIST’2014, Analysis of Images, Social networks and Texts. Springer International Publishing Switzerland, 2014. Communications in Computer and Information Science (CCIS). Vol. 436. pp. 29–46.
- Vorontsov K. V., Potapenko A. A. Additive Regularization of Topic Models // Machine Learning Journal. Special Issue “Data Analysis and Intelligent Optimization with Applications”.
Ссылки
- Документация: bigartm.org
- Страница на гитхабе: github.com/bigartm
- Видеозапись семинара в Яндексе 3 декабря 2014
См. также
- Тематическое моделирование
- Аддитивная регуляризация тематических моделей
- Вероятностные тематические модели — семестровый спецкурс, кафедра ММП ВМиК МГУ
- Коллекции документов для тематического моделирования
- Воронцов К.В. Лекции по тематическому моделированию. Voron-2013-ptm.pdf.
- Воронцов К.В. Практическое задание по тематическому моделированию. Voron-2014-task-ptm.pdf