TopicNet
Материал из MachineLearning.
|
TopicNet — открытая библиотека тематического моделирования под Python, верхнеуровневая обёртка над BigARTM, упрощающая построение тематических моделей в прикладных проектах и автоматизирующая проведение вычислительных экспериментов по оптимизации моделей.
- cтраница проекта: github.com/machine-intelligence-laboratory/TopicNet
- разработчик: лаборатория машинного интеллекта МФТИ
Мотивации
Современные информационные системы генерируют потоки разнородных данных, в которых перемешаны числа, тексты, сигналы, транзакции, изображения. Цифровая вселенная — это данные о различных взаимосвязях и взаимодействиях, регистрируемых компьютерными системами. Пользователь ввел запрос, кликнул на рекламный баннер, приобрел товар, посмотрел видео, прочитал текст, написал комментарий — это всё взаимодействия или, говоря инженерным языком, транзакции. Мы постоянно взаимодействуем с текстами, когда читаем, пишем, ищем в Интернете. Тексты сопровождают буквально каждый предмет, производимый нашей цивилизацией. Совершенствуются технологии, способные переводить изображение или видеоряд в текстовое описание. Да и сам текст — это серия взаимодействий документа со словами. То есть мы имеем целую сеть разнообразных взаимодействий, особую роль в которой играют слова. Они обозначают всё, чем мы пользуемся и что нас окружает. Группируясь вместе, слова образуют темы, которые описывают наши интересы, несут определённые смыслы, позволяют нам коммуницировать и понимать друг друга.
Обрабатывая большие данные о взаимосвязях и взаимодействиях, TopicNet переносит смыслы слов с текстов на предметы и людей. Распространяя смыслы по сети взаимодействий, TopicNet формирует цифровые тематические профили всех объектов и субъектов, вовлечённых в эти взаимодействия. Тематический профиль (topical embedding) — это набор тем или интересов с числовыми оценками их важности, а каждая тема (topic) — это группа связанных по смыслу слов. В этом суть технологии тематического моделирования (topic modeling). Этим она отличается от нейронных сетей, в которых тоже возникают профили объектов, но их не удаётся интерпретировать, то есть объяснять словами естественного языка. Тематические профили интерпретируемы и универсальны. Они позволяют сравнивать любые объекты друг с другом независимо от их природы и находить объекты, схожие по смыслу.
Сферы применения этой технологии не ограничиваются анализом текстов. Вот несколько примеров задач, которые TopicNet уже умеет решать на практике.
- Профилирование клиентов банков, финансовых или торговых компаний на основе анализа транзакционных данных.
- Определение потребности клиентов и маршрутизация обращений клиентов в контактный центр.
- Формирование тематических подборок статей, патентов, документации при поиске научно-технической информации.
- Выделение событий, тем, мнений и позиций в новостных потоках.
- Поиск похожих судебных решений в базе актов арбитражных судов.
- Подбор курсов, мероприятий и индивидуальных образовательных траекторий в системах дистанционного образования.
- Подбор подходящих пользователю товаров, фильмов, книг, сообществ в рекомендательных системах.
Описание
Ссылки
- Страница на гитхабе: github.com/machine-intelligence-laboratory/TopicNet
- Анализ мультимодальных данных TopicNet, центр компетенций НТИ по направлению «Искусственный интеллект»
Литература
- Bulatov V., Egorov E., Veselova E., Polyudova D., Alekseev V., Goncharov A., Vorontsov K. TopicNet: Making Additive Regularisation for Topic Modelling Accessible // Proceedings of the 12th Conference on Language Resources and Evaluation (LREC 2020), Marseille, 11–16 May 2020. Pp. 6745–6752.
- Воронцов К. В. Вероятностное тематическое моделирование: теория регуляризации ARTM и библиотека с открытым кодом BigARTM. 2023.