BigARTM
Материал из MachineLearning.
|
BigARTM — библиотека с открытым кодом для тематического моделирования больших коллекций текстовых документов и массивов транзакционных данных. Эффективная потоковая параллельная реализация вероятностного тематического моделирования на основе аддитивной регуляризации.
ARTM (англ.) — Additive Regularization for Topic Modeling.
АРТМ (рус.) — Аддитивная Регуляризация Тематических Моделей.
Тематическое моделирование
Тематическое моделирование – это технология статистического анализа текстов для автоматического выявления тематики в больших коллекциях документов. Тематическая модель определяет, к каким темам относится каждый документ, и какими словами описывается каждая тема. Для этого не требуется никакой ручной разметки текстов, обучение модели происходит без учителя. Похоже на кластеризацию, но тематическая кластеризация является «мягкой» и допускает, чтобы документ относился к нескольким кластерам-темам. Тематическое моделирование не претендует на понимание смысла текста, однако оно способно отвечать на вопросы «о чём этот текст» или «какие общие темы имеет эта пара текстов».
Тематическое моделирование используется для разведочного поиска (exploratory search) в электронных библиотеках (поиска по смыслу, а не по ключевым словам), для обнаружения и отслеживания событий в новостных потоках, для выявления тематических сообществ в социальных сетях, для построения профилей интересов пользователей в рекомендательных системах, для категоризации интентов в системах разговорного интеллекта. Постоянно появляются новые приложения в области биоинформатики, анализа изображений и видео, анализа транзакционных данных и пользовательских логов.
Тематическая модель формирует сжатое векторное представление текста, которое помогает классифицировать, рубрицировать, аннотировать, сегментировать тексты. В отличие от известных векторных представлений семейства x2vec (vord2vec, paragraph2vec, graph2vec и т.д.), в тематических векторах каждая координата соответствует теме и имеет содержательную интерпретацию. Модель привязывает к каждой теме список ключевых слов или фраз, который описывает семантику этой темы.
LDA, латентное размещение Дирихле – самая известная и часто используемая тематическая модель. Зачем нужно что-то ещё? Проблема в том, что задача тематического моделирования имеет очень много (бесконечно много) решений, и LDA выбирает одно из них, не предоставляя никаких средств для выбора лучшего решения под конкретную задачу.
Регуляризация тематических моделей
Регуляризация служит для задания желаемых свойств тематической модели в виде оптимизационных критериев. Например, есть регуляризаторы, которые улучшают качество классификации текстов, повышают точность и полноту поиска, повышают различность тем, обеспечивают максимально возможную разреженность решения, учитывают дополнительные нетекстовые данные, и т.д.
Аддитивная регуляризация (ARTM) позволяет задать сразу несколько критериев-регуляризаторов. Например, чтобы построить тематическую модель новостного потока, необходимо учесть несколько верхних уровней уже имеющегося рубрикатора, научить модель учитывать время документов, разделять темы на подтемы и создавать новые темы по необходимости. ARTM позволяет складывать регуляризаторы от разных моделей, создавая комбинации моделей с заданными свойствами под конкретные приложения. Это приводит к модульной технологии тематического моделирования с высокой степенью повторного использования кода.
Функциональные возможности BigARTM
BigARTM реализует модульную технологию ARTM. Ядро библиотеки написано на С++ с соблюдением стандартов промышленного программирования. BigARTM поддерживает распараллеливание на ядрах центрального процессора. Реализует пакетную обработку больших данных, не требующую единовременной загрузки всех данных в оперативную память. Обладает линейной вычислительной сложностью по объёму коллекции и числу тем. Опережает другие свободно доступные библиотеки по скорости вычислений. Располагает встроенной библиотекой регуляризаторов и метрик качества, и позволяет добавлять свои. BigARTM – это «ЛЕГО-конструктор» тематических моделей.
BigARTM реализует несколько механизмов, которые снимают многие ограничения простых моделей типа PLSA или LDA и расширяют спектр приложений тематического моделирования.
- Regularization. Регуляризаторы, которые можно комбинировать в любых сочетаниях.
- Modality. Модальности, которыми можно описывать нетекстовые объекты внутри документов.
- Hierarchy. Тематические иерархии, в которых темы разделяются на подтемы.
- Intratext. Обработка текста как последовательности тематических векторов слов.
- Co-occurrence. Использование данных о совместной встречаемости слов.
- Hypergraph. Тематизация сложно структурированных транзакционных данных.
Теперь немного подробнее об этих механизмах.
Мультимодальные тематические модели позволяют обрабатывать документы, содержащие не только слова, но и токены других модальностей. Это могут быть метаданные документа – авторы, время, источник, рубрики, и т.д. Это могут быть также токены, находящиеся внутри текста – ссылки, теги, словосочетания, именованные сущности, объекты на изображениях, записи о действиях пользователей, и т.д. Модальности помогают строить темы с учётом дополнительной информации. С другой стороны, темы помогают выявлять семантику нетекстовых модальностей, предсказывать или рекомендовать значения пропущенных токенов.
Мультиязычные тематические модели реализуются как частный случай мультимодальных. Модальностями являются языки. В системах кроссязычного и мультиязычного тематического поиска запрос даётся на одном языке, а ответ может быть получен на других языках. Например, пользователь имеет текст патента на русском языке, и хочет найти близкие патенты на английском.
Иерархические тематические модели используются для автоматической рубрикации текстов. В BigARTM тематическая иерархия строится сверху вниз по уровням. Каждая дочерняя тема связывается с одной или несколькими родительскими. Каждая родительская тема может разделиться на несколько подтем, либо перейти на следующий уровень целиком.
Внутритекстовые регуляризаторы позволяют учитывать порядок слов, синтаксические связи, деление текста по предложениям и абзацам и другую внутритекстовую информацию. Он используется для тематической сегментации текстов, при этом сегментация влияет на темы. Это позволяет отойти от гипотезы «мешка слов» – самого критикуемого допущения в тематическом моделировании.
Тематические модели совстречаемости используют данные о совместной встречаемости слов в локальных контекстах, например, в предложениях. Они основаны на дистрибутивной гипотезе – предположении, что смысл слова в языке определяется совокупностью всех слов, встречающихся в его локальных контекстах. Получаемые векторные представления слов имеют те же свойства, что и в моделях дистрибутивной семантики семейства x2vec. Они лучше инкапсулируют смыслы слов и точнее решают задачи семантической близости. При этом тематические векторные представления, в отличие от векторов x2vec, имеют интерпретируемые координаты.
Гиперграфовые тематические модели используются для описания транзакционных данных. В обычном тексте транзакция – это запись о том, что слово встретилось в документе. В более сложных приложениях данные не сводятся к парным транзакциям и описывают взаимодействия трёх и более объектов. Например, транзакция (u,b,p) в рекламной сети – «пользователь u кликнул баннер b, расположенный на странице p»; финансовая транзакция (b,s,g) – «покупатель b купил товар g у продавца s». Транзакциями могут быть любые наборы объектов. Предложение в тексте – это тоже транзакция, состоящая из слов. Транзакции могут быть пересекающимися или вложенными. Модель строит тематические векторные представления для всех объектов, участвующих в транзакциях, независимо от их природы. Это наиболее общий вид тематических моделей, которые можно строить с использованием BigARTM.
Регуляризаторы
Следующие регуляризаторы реализованы в библиотеке BigARTM.
- Сглаживание распределений терминов в темах. Используется для выделения фоновых тем, собирающих общую лексику языка или общую лексику данной коллекции.
- Сглаживание распределений тем в документах. Используется для выделения фоновых слов в каждом документах.
- Разреживание распределений терминов в темах. Используется для выделения лексических ядер предметных тем как относительно небольшой доли слов словаря.
- Разреживание распределений тем в документах. Используется для выделения относительно небольшой доли предметных тем в каждом документах.
- Декоррелирование распределений терминов в темах. Используется для повышения различности лексических ядер предметных тем.
- Отбор тем путём обнуления вероятности темы во всех документах. Используется для выведения из модели незначимых тем. Позволяет оптимизировать число тем, начиная с заведомо избыточного числа тем и постепенно удаляя ненужные.
Список регуляризаторов будет пополняться.
Метрики качества
Следующие метрики качества реализованы в библиотеке BigARTM.
- Перплексия
- Разреженность
- Средняя чистота тем
- Средняя контрастность тем
- Средний размер лексического ядра тем
- Доля фоновых слов во всей коллекции
Список метрик качества будет пополняться.
Разработчики BigARTM
- Александр Фрей — генеральный архитектор, гуру
- Константин Воронцов — идеолог
- Мурат Апишев — разработчик
Публикации
Основные
- Воронцов К. В. Обзор вероятностных тематических моделей. 2018.
- Frei O., Apishev M. Parallel Non-blocking Deterministic Algorithm for Online Topic Modeling // Analysis of Images, Social Networks and Texts. AIST 2016. Communications in Computer and Information Science, vol 661. Springer, pp. 132–144.
- Kochedykov D., Apishev M., Golitsyn L., Vorontsov K. Fast and Modular Regularized Topic Modelling // Proceeding Of The 21St Conference Of FRUCT (Finnish-Russian University Cooperation in Telecommunications) Association. The seminar on Intelligence, Social Media and Web (ISMW). Helsinki, Finland, November 6-10, 2017. Pp.182–193.
Теория ARTM
- Воронцов К. В. Аддитивная регуляризация тематических моделей коллекций текстовых документов // Доклады РАН. 2014. — Т. 455., №3. 268–271
- Воронцов К. В., Фрей А. И., Апишев М. А., Ромов П. А., Янина А. О., Суворова М. А. BigARTM: библиотека с открытым кодом для тематического моделирования больших текстовых коллекций // Аналитика и управление данными в областях с интенсивным использованием данных. XVII Международная конференция DAMDID/RCDL’2015, Обнинск, 13-16 октября 2015.
- Vorontsov K. V., Potapenko A. A. Additive Regularization of Topic Models // Machine Learning. Special Issue “Data Analysis and Intelligent Optimization with Applications”. 2014. Русский перевод
- Vorontsov K. V., Frei O. I., Apishev M. A., Romov P. A., Suvorova M. A., Yanina A. O. Non-Bayesian Additive Regularization for Multimodal Topic Modeling of Large Collections // Topic Models: Post-Processing and Applications, CIKM 2015 Workshop, October 19, 2015, Melbourne, Australia.
- Vorontsov K. V., Potapenko A. A., Plavin A. V. Additive Regularization of Topic Models for Topic Selection and Sparse Factorization // The Third International Symposium On Learning And Data Sciences (SLDS 2015). April 20-22, 2015. Royal Holloway, University of London, UK. Springer International Publishing Switzerland 2015, A. Gammerman et al. (Eds.): SLDS 2015, LNAI 9047, pp. 193–202, 2015.
- Chirkova N., Vorontsov K. Additive Regularization for Hierarchical Multimodal Topic Modeling // Journal Machine Learning and Data Analysis. 2(2), pp. 187-200. 2016.
- Ianina A., Golitsyn L., Vorontsov K. Multi-objective topic modeling for exploratory search in tech news // Filchenkov A., Pivovarova L., Žižka J. (eds) Artificial Intelligence and Natural Language. AINL 2017, St. Petersburg, Russia, September 20-23, 2017. — Communications in Computer and Information Science, vol 789. Springer, Cham, 2017. — pp 181–193.
- Potapenko A. A., Popov A. S., Vorontsov K. V. Interpretable probabilistic embeddings: bridging the gap between topic models and neural networks // Filchenkov A., Pivovarova L., Žižka J. (eds) Artificial Intelligence and Natural Language. AINL 2017, St. Petersburg, Russia, September 20-23, 2017. — Communications in Computer and Information Science, vol 789. Springer, Cham, 2017. — pp 167-180.
- Alekseev V. A., Bulatov V. G., Vorontsov K. V. Intra-Text Coherence as a Measure of Topic Models Interpretability // Computational Linguistics and Intellectual Technologies. Dialogue 2018. Pp. 1-13.
- Belyy A. V., Seleznova M. S., Sholokhov A. K., Vorontsov K. V. Quality Evaluation and Improvement for Hierarchical Topic Modeling // Computational Linguistics and Intellectual Technologies. Dialogue 2018. Pp. 110-123.
- Skachkov N. A., Vorontsov K. V. Improving topic models with segmental structure of texts // Computational Linguistics and Intellectual Technologies. Dialogue 2018. Pp. 652-661.
Переводы, сокращённые версии
- Vorontsov K. V. Additive Regularization for Topic Models of Text Collections // Doklady Mathematics. 2014, Pleiades Publishing, Ltd. — Vol. 89, No. 3, pp. 301–304.
- Vorontsov K. V., Potapenko A. A. Tutorial on Probabilistic Topic Modeling: Additive Regularization for Stochastic Matrix Factorization // AIST’2014, Analysis of Images, Social networks and Texts. Springer International Publishing Switzerland, 2014. Communications in Computer and Information Science (CCIS). Vol. 436. pp. 29–46.
- Vorontsov K. V., Frei O. I., Apishev M. A., Romov P. A., Suvorova M. A. BigARTM: Open Source Library for Regularized Multimodal Topic Modeling of Large Collections // AIST’2015, Analysis of Images, Social networks and Texts. Springer International Publishing Switzerland, 2015. Communications in Computer and Information Science (CCIS).
- Воронцов К. В., Потапенко А. А. Регуляризация вероятностных тематических моделей для повышения интерпретируемости и определения числа тем // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 4–8 июня 2014 г.) Вып.13 (20). М: Изд-во РГГУ, 2014. C.676–687.
- Янина А. О., Воронцов К. В. Мультимодальные тематические модели для разведочного поиска в коллективном блоге // Машинное обучение и анализ данных. 2016. T.2. №2. С.173-186.
Ссылки
- Документация: bigartm.org
- Страница на гитхабе: github.com/bigartm
- Видеозапись семинара в Яндексе 3 декабря 2014