TopicNet

Материал из MachineLearning.

Перейти к: навигация, поиск

Содержание

TopicNet — открытая библиотека тематического моделирования под Python, верхнеуровневая обёртка над BigARTM, упрощающая построение тематических моделей в прикладных проектах и автоматизирующая проведение вычислительных экспериментов по оптимизации моделей.

Мотивации

Современные информационные системы генерируют потоки разнородных данных, в которых перемешаны числа, тексты, сигналы, транзакции, изображения. Цифровая вселенная — это данные о различных взаимосвязях и взаимодействиях, регистрируемых компьютерными системами. Пользователь ввел запрос, кликнул на рекламный баннер, приобрел товар, посмотрел видео, прочитал текст, написал комментарий — это всё взаимодействия или, говоря инженерным языком, транзакции. Мы постоянно взаимодействуем с текстами, когда читаем, пишем, ищем в Интернете. Тексты сопровождают буквально каждый предмет, производимый нашей цивилизацией. Совершенствуются технологии, способные переводить изображение или видеоряд в текстовое описание. Да и сам текст — это серия взаимодействий документа со словами. То есть мы имеем целую сеть разнообразных взаимодействий, особую роль в которой играют слова. Они обозначают всё, чем мы пользуемся и что нас окружает. Группируясь вместе, слова образуют темы, которые описывают наши интересы, несут определённые смыслы, позволяют нам коммуницировать и понимать друг друга.

Обрабатывая большие данные о взаимосвязях и взаимодействиях, TopicNet переносит смыслы слов с текстов на предметы и людей. Распространяя смыслы по сети взаимодействий, TopicNet формирует цифровые тематические профили всех объектов и субъектов, вовлечённых в эти взаимодействия. Тематический профиль (topical embedding) — это набор тем или интересов с числовыми оценками их важности, а каждая тема (topic) — это группа связанных по смыслу слов. В этом суть технологии тематического моделирования (topic modeling). Этим она отличается от нейронных сетей, в которых тоже возникают профили объектов, но их не удаётся интерпретировать, то есть объяснять словами естественного языка. Тематические профили интерпретируемы и универсальны. Они позволяют сравнивать любые объекты друг с другом независимо от их природы и находить объекты, схожие по смыслу.

Сферы применения этой технологии не ограничиваются анализом текстов. Вот несколько примеров задач, которые TopicNet уже умеет решать на практике.

  • Профилирование клиентов банков, финансовых или торговых компаний на основе анализа транзакционных данных.
  • Определение потребности клиентов и маршрутизация обращений клиентов в контактный центр.
  • Формирование тематических подборок статей, патентов, документации при поиске научно-технической информации.
  • Выделение событий, тем, мнений и позиций в новостных потоках.
  • Поиск похожих судебных решений в базе актов арбитражных судов.
  • Подбор курсов, мероприятий и индивидуальных образовательных траекторий в системах дистанционного образования.
  • Подбор подходящих пользователю товаров, фильмов, книг, сообществ в рекомендательных системах.

Описание

Ссылки

Литература

См. также

Личные инструменты