Вероятностные тематические модели (курс лекций, К.В.Воронцов)
Материал из MachineLearning.
(лекция 1, обновление) |
(обновление 2108) |
||
Строка 21: | Строка 21: | ||
== Введение == | == Введение == | ||
- | Презентация: [[Media: | + | Презентация: [[Media:Voron18ptm-intro.pdf|(PDF, 1,2 МБ)]] {{важно|— обновление 15.02.2018}}. |
'''Цели и задачи тематического моделирования.''' | '''Цели и задачи тематического моделирования.''' | ||
Строка 43: | Строка 43: | ||
== Обзор базовых инструментов == | == Обзор базовых инструментов == | ||
- | ''Александр Романенко''. | + | ''Александр Романенко'', ''Мурат Апишев''. |
Презентация: [[Media:Base_instruments.zip|(zip, 0,6 МБ)]] {{важно|— обновление 17.02.2017}}. | Презентация: [[Media:Base_instruments.zip|(zip, 0,6 МБ)]] {{важно|— обновление 17.02.2017}}. | ||
Строка 57: | Строка 57: | ||
* Обучение простой модели (без регуляризации): создание, инициализация, настройка и оценивание модели. | * Обучение простой модели (без регуляризации): создание, инициализация, настройка и оценивание модели. | ||
* Инструмент визуализации тематических моделей VisARTM. Основные возможности, демонстрация работы. | * Инструмент визуализации тематических моделей VisARTM. Основные возможности, демонстрация работы. | ||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
'''Дополнительный материал:''' | '''Дополнительный материал:''' | ||
- | * | + | * Презентация: [[Media:VoronApishev17ptm5.pdf|(PDF, 1,5 МБ)]] {{важно|— обновление 17.03.2017}}. |
+ | * [https://www.youtube.com/watch?v=2LEQuLRxaIY&t=1s '''Видео'''] {{важно|— обновление 22.03.2017}}. | ||
+ | * Воркшоп по BigARTM на DataFest'4. [https://www.youtube.com/watch?v=oQcHEm2-7PM '''Видео''']. | ||
- | == | + | == Аддитивная регуляризация тематических моделей == |
- | Презентация: [[Media: | + | Презентация: [[Media:Voron18ptm-artm.pdf|(PDF, 3,1 МБ)]] {{важно|— обновление 15.03.2018}}. |
- | ''' | + | '''Теория ARTM''' |
- | * | + | * Мультимодальные тематические модели |
- | + | * Регуляризаторы сглаживания и разреживания | |
- | + | * Разделение тем на предметные и фоновые | |
- | * Регуляризаторы сглаживания и разреживания | + | '''Время и пространство''' |
- | + | * Регуляризаторы времени | |
- | * Разделение тем на предметные и фоновые | + | * Эксперименты на коллекции пресс-релизов |
- | + | * Гео-пространственные модели | |
- | * | + | '''Иерархические тематические модели''' |
- | * Эксперименты | + | * Нисходящая послойная стратегия |
- | * | + | * Оценивание качества тематических иерархий |
- | ''' | + | * Визуализация иерархии |
- | * | + | |
- | * | + | |
- | * | + | |
- | == | + | == Разведочный информационный поиск == |
- | + | Презентация: [[Media:Voron18ptm-exp.pdf|(PDF, 4,5 МБ)]] {{важно|— обновление 15.03.2018}}. | |
- | Презентация: [[Media: | + | |
- | + | ||
- | ''' | + | '''Разведочный информационный поиск''' |
- | * | + | * Концепция разведочного поиска |
- | * | + | * Визуализация больших текстовых коллекций |
- | '''Эксперименты | + | * Сценарий разведочного поиска |
- | * | + | '''Эксперименты с тематическим поиском''' |
- | * | + | * Методика эксперимента |
- | * | + | * Построение тематической модели |
- | + | * Оптимизация гиперпараметров | |
- | ''' | + | '''Эксперименты с тематическими моделями''' |
- | * | + | * Измерение качества тематической модели |
- | * | + | * Многокритериальное оценивание качества модели |
- | + | * Определение числа тем и регуляризатор отбора тем | |
- | + | ||
- | * | + | |
== Байесовское обучение тематических моделей == | == Байесовское обучение тематических моделей == | ||
- | Презентация: [[Media:Voron-PTM-Bayes.pdf|(PDF, 1,3 МБ)]] {{важно|— обновление | + | Презентация: [[Media:Voron-PTM-Bayes.pdf|(PDF, 1,3 МБ)]] {{важно|— обновление ??.??.2018}}. |
'''EM-алгоритм.''' | '''EM-алгоритм.''' | ||
Строка 148: | Строка 128: | ||
* Модель коррелированных тем CTM (Correlated Topic Model). | * Модель коррелированных тем CTM (Correlated Topic Model). | ||
* Регуляризаторы гиперссылок и цитирования. Выявление тематических влияний в научных публикациях. | * Регуляризаторы гиперссылок и цитирования. Выявление тематических влияний в научных публикациях. | ||
- | |||
- | |||
- | |||
'''Социальные сети.''' | '''Социальные сети.''' | ||
* Выявление тематических сообществ. Регуляризаторы для направленных и ненаправленных связей. | * Выявление тематических сообществ. Регуляризаторы для направленных и ненаправленных связей. | ||
Строка 162: | Строка 139: | ||
* Регуляризаторы для учёта двуязычных словарей. | * Регуляризаторы для учёта двуязычных словарей. | ||
* Кросс-язычный информационный поиск. | * Кросс-язычный информационный поиск. | ||
- | |||
- | |||
- | |||
'''Трёхматричные и гиперграфовые модели.''' | '''Трёхматричные и гиперграфовые модели.''' | ||
* Модели трёхматричных разложений. Понятие порождающей модальности. | * Модели трёхматричных разложений. Понятие порождающей модальности. | ||
Строка 214: | Строка 188: | ||
--> | --> | ||
+ | <!--- | ||
== Примеры приложений тематического моделирования == | == Примеры приложений тематического моделирования == | ||
Презентация: [[Media:Voron17ptm11.pdf|(PDF, 3,3 МБ)]] {{важно|— обновление 16.05.2017}}. | Презентация: [[Media:Voron17ptm11.pdf|(PDF, 3,3 МБ)]] {{важно|— обновление 16.05.2017}}. | ||
Строка 221: | Строка 196: | ||
* Анализ транзакционных данных для выявления паттернов экономического поведения клиентов банка. '''[https://youtu.be/0q5p7xP4cdA?t=15168 Видео]'''. | * Анализ транзакционных данных для выявления паттернов экономического поведения клиентов банка. '''[https://youtu.be/0q5p7xP4cdA?t=15168 Видео]'''. | ||
- | |||
== Обзор задач и моделей == | == Обзор задач и моделей == | ||
Презентация: [[Media:Voron-PTM-2.pdf|(PDF, 8,3 МБ)]] {{важно|— обновление 27.02.2016}}. | Презентация: [[Media:Voron-PTM-2.pdf|(PDF, 8,3 МБ)]] {{важно|— обновление 27.02.2016}}. |
Версия 02:00, 15 марта 2018
Спецкурс читается студентам 2—5 курсов на кафедре «Математические методы прогнозирования» ВМиК МГУ с 2013 года.
В спецкурсе изучается вероятностное тематическое моделирование (topic modeling) коллекций текстовых документов. Тематическое моделирование рассматривается как ключевая математическая технология перспективных информационно-поисковых систем нового поколения, основанных на парадигме семантического разведочного поиска (exploratory search). Рассматриваются также прикладные задачи классификации, сегментации и суммаризации текстов, задачи анализа данных социальных сетей и рекомендательных систем. Развивается многокритериальный подход к построению композитных тематических моделей с заданными свойствами — аддитивная регуляризация тематических моделей (АРТМ). Он основан на регуляризации некорректно поставленных задач стохастического матричного разложения. Рассматриваются способы измерения и оптимизации важнейших свойств тематических моделей — правдоподобия, интерпретируемости, устойчивости, полноты. Рассматриваются задачи анализа и классификации символьных последовательностей неязыковой природы, в частности, аминокислотных и нуклеотидных последовательностей, дискретизированных биомедицинских сигналов. Предполагается проведение студентами численных экспериментов на модельных и реальных данных с помощью библиотеки тематического моделирования BigARTM.
От студентов требуются знания курсов линейной алгебры, математического анализа, теории вероятностей. Знание математической статистики, методов оптимизации, машинного обучения, языков программирования Python и С++ желательно, но не обязательно.
Материалы для первого ознакомления:
- Обзорная презентация: (PDF, 4,4 МБ) — обновление 14.03.2016.
- Видеолекция на ПостНауке: Разведочный информационный поиск.
Основной материал:
- Обзор вероятностных тематических моделей — обновление 14.07.2017.
Краткая ссылка на эту страницу: bit.ly/2EGWcjA.
Программа курса
Условием сдачи спецкурса является выполнение индивидуальных практических заданий.
Введение
Презентация: (PDF, 1,2 МБ) — обновление 15.02.2018.
Цели и задачи тематического моделирования.
- Понятие «темы», цели и задачи тематического моделирования.
- Основные предположения. Гипотеза «мешка слов» (bag-of-words). Методы предварительной обработки текстов.
- Вероятностное пространство. Тема как латентная (ненаблюдаемая) переменная. Гипотеза условной независимости.
- Порождающая модель документа как вероятностной смеси тем.
- Упрощённая вероятностная модель текста и элементарное решение обратной задачи
- Постановка обратной задачи восстановления параметров модели по данным.
Математический инструментарий.
- Принцип максимума правдоподобия.
- Условия Каруша–Куна–Таккера.
- Униграммные модели коллекции и документа.
Аддитивная регуляризация тематических моделей.
- Теорема о необходимом условии максимума регуляризованного правдоподобия для ARTM.
- EM-алгоритм и его элементарная интерпретация. Формула Байеса и частотные оценки условных вероятностей.
- Вероятностный латентный семантический анализ (probabilistic latent semantic analysis, PLSA).
- Рациональный ЕМ-алгоритм (встраивание Е-шага внутрь М-шага). Оффлайновый регуляризованный EM-алгоритм.
- Онлайновый регуляризованный EM-алгоритм. Распараллеливание.
- Библиотека BigARTM.
Обзор базовых инструментов
Александр Романенко, Мурат Апишев. Презентация: (zip, 0,6 МБ) — обновление 17.02.2017.
Предварительная обработка текстов
- Парсинг "сырых" данных.
- Токенизация, стемминг и лемматизация.
- Выделение энграмм.
- Законы Ципфа и Хипса. Фильтрация словаря коллекции. Удаление стоп-слов.
Библиотека BigARTM
- Методологические рекоммендации по проведению экспериментов.
- Установка BigARTM.
- Формат и импорт входных данных.
- Обучение простой модели (без регуляризации): создание, инициализация, настройка и оценивание модели.
- Инструмент визуализации тематических моделей VisARTM. Основные возможности, демонстрация работы.
Дополнительный материал:
- Презентация: (PDF, 1,5 МБ) — обновление 17.03.2017.
- Видео — обновление 22.03.2017.
- Воркшоп по BigARTM на DataFest'4. Видео.
Аддитивная регуляризация тематических моделей
Презентация: (PDF, 3,1 МБ) — обновление 15.03.2018.
Теория ARTM
- Мультимодальные тематические модели
- Регуляризаторы сглаживания и разреживания
- Разделение тем на предметные и фоновые
Время и пространство
- Регуляризаторы времени
- Эксперименты на коллекции пресс-релизов
- Гео-пространственные модели
Иерархические тематические модели
- Нисходящая послойная стратегия
- Оценивание качества тематических иерархий
- Визуализация иерархии
Разведочный информационный поиск
Презентация: (PDF, 4,5 МБ) — обновление 15.03.2018.
Разведочный информационный поиск
- Концепция разведочного поиска
- Визуализация больших текстовых коллекций
- Сценарий разведочного поиска
Эксперименты с тематическим поиском
- Методика эксперимента
- Построение тематической модели
- Оптимизация гиперпараметров
Эксперименты с тематическими моделями
- Измерение качества тематической модели
- Многокритериальное оценивание качества модели
- Определение числа тем и регуляризатор отбора тем
Байесовское обучение тематических моделей
Презентация: (PDF, 1,3 МБ) — обновление ??.??.2018.
EM-алгоритм.
- Задачи оценивания скрытых параметров вероятностной модели.
- EM-алгоритм для максимизации неполного правдоподобия. Сходимость в слабом смысле.
- EM-алгоритм для модели PLSA.
- EM-алгоритм с регуляризацией.
Методы оценивания параметров в модели LDA.
- Модель LDA. Свойства распределения Дирихле.
- Максимизация апостериорной вероятности для модели LDA.
- Вариационный байесовский вывод для модели LDA.
- Сэмплирование Гиббса для модели LDA. Сопряжённые распределения.
- Оптимизация гиперпараметров распределения Дирихле.
Языки описания вероятностных порождающих моделей.
- Графическая плоская нотация (plate notation). Stop using plate notation.
- Псевдокод порождающего процесса (genarative story).
- Постановки оптимизационных задач.
- Как читать статьи по баейсовским моделям и строить эквивалентные ARTM-модели.
Дополнительный материал:
- Потапенко А. А. Байесовское обучение тематических моделей. 2016.
Тематические модели для анализа зависимостей
Презентация: (PDF, 1,9 МБ) — обновление 31.03.2017.
Классификация и регрессия.
- Тематическая модель классификации.
- Пример: Технология информационного анализа электрокардиосигналов.
- Тематическая модель регрессии.
Связи и корреляции.
- Модель коррелированных тем CTM (Correlated Topic Model).
- Регуляризаторы гиперссылок и цитирования. Выявление тематических влияний в научных публикациях.
Социальные сети.
- Выявление тематических сообществ. Регуляризаторы для направленных и ненаправленных связей.
- Регуляризаторы для выявления социальных ролей пользователей.
Мультимодальные тематические модели
Презентация: (PDF, 1,9 МБ) — обновление 07.04.2017.
Мультиязычные тематические модели.
- Параллельные и сравнимые коллекции.
- Регуляризаторы для учёта двуязычных словарей.
- Кросс-язычный информационный поиск.
Трёхматричные и гиперграфовые модели.
- Модели трёхматричных разложений. Понятие порождающей модальности.
- Автор-тематическая модель (author-topic model).
- Примеры транзакционных данных в рекомендательных системах, социальных и рекламных сетях.
- Теорема о необходимом условии максимума регуляризованного правдоподобия для гиперграфовой ARTM.
Тематические модели совстречаемости слов
Презентация: (PDF, 1,6 МБ) — обновление 15.04.2017.
Мультиграммные модели.
- Модель BigramTM.
- Модель Topical N-grams (TNG).
- Мультимодальная мультиграммная модель.
Автоматическое выделение терминов.
- Алгоритм TopMine для быстрого поиска частых фраз. Критерии выделения коллокаций.
- Синтаксический разбор. Нейросетевой синтаксический анализатор SyntaxNet.
- Критерии тематичности фраз.
Тематические модели дистрибутивной семантики.
- Дистрибутивная гипотеза.
- Модель битермов BTM (Biterm Topic Model) для тематизации коллекций коротких текстов.
- Модели WNTM (Word Network Topic Model) и WTM (Word Topic Model). Связь с моделью word2vec.
- Понятие когерентности (согласованности). Экспериментально установленная связь когерентности и интерпретируемости.
- Регуляризаторы когерентности.
Дополнительный материал:
- Потапенко А. А. Векторные представления слов и документов. DataFest'4. Видео.
Тематическая сегментация и суммаризация
Презентация: (PDF, 2,0 МБ) — обновление 05.05.2017.
Модели связного текста.
- Тематическая модель предложений и модель коротких сообщений Twitter-LDA.
- Контекстная документная кластеризация (CDC).
- Метод лексических цепочек.
Тематическая сегментация.
- Метод TopicTiling. Критерии определения границ сегментов.
- Критерии качества сегментации. Оптимизация параметров модели TopicTiling.
Методы суммаризации текстов.
- Автоматическая суммаризация текстов: задачи и подходы.
- Релаксационный метод для многокритериальной дискретной оптимизации.
- Тематическая модель предложений для суммаризации.
- Семейство критериев качества суммаризации ROUGE.
Литература
- Воронцов К. В. Обзор вероятностных тематических моделей. — обновление 31.07.2017.
- Blei D. M., Ng A. Y., Jordan M. I. Latent Dirichlet allocation // Journal of Machine Learning Research. — 2003. — Vol. 3. — Pp. 993–1022.
- Asuncion A., Welling M., Smyth P., Teh Y. W. On smoothing and inference for topic models // Proceedings of the International Conference on Uncertainty in Artificial Intelligence. — 2009.
- Lu Y., Mei Q., Zhai C. Investigating task performance of probabilistic topic models: an empirical study of PLSA and LDA // Information Retrieval. — 2011. — Vol.14, no.2. — Pp. 178–203.
- Янина А. О., Воронцов К. В. Мультимодальные тематические модели для разведочного поиска в коллективном блоге // Машинное обучение и анализ данных. 2016. T.2. №2. С.173-186.
Ссылки
- Тематическое моделирование
- Аддитивная регуляризация тематических моделей
- Коллекции документов для тематического моделирования
- BigARTM
- Видеозапись лекции на ТМШ, 19 июня 2015
- Воронцов К.В. Практическое задание по тематическому моделированию, 2014.
Подстраницы
Вероятностные тематические модели (курс лекций, К.В.Воронцов)/2015 | Вероятностные тематические модели (курс лекций, К.В.Воронцов)/2016 | Вероятностные тематические модели (курс лекций, К.В.Воронцов)/2017 |
Вероятностные тематические модели (курс лекций, К.В.Воронцов)/2018 | Вероятностные тематические модели (курс лекций, К.В.Воронцов)/2019, ВМК | Вероятностные тематические модели (курс лекций, К.В.Воронцов)/2020 |
Вероятностные тематические модели (курс лекций, К.В.Воронцов)/2021 |