Вероятностные тематические модели (курс лекций, К.В.Воронцов)
Материал из MachineLearning.
(обновление) |
(уточнение, дополнение) |
||
Строка 94: | Строка 94: | ||
* Многокритериальное оценивание качества модели | * Многокритериальное оценивание качества модели | ||
* Определение числа тем и регуляризатор отбора тем | * Определение числа тем и регуляризатор отбора тем | ||
+ | |||
+ | '''Дополнительный материал:''' | ||
+ | * Разведочный информационный поиск (exploratory search). '''[https://www.youtube.com/watch?v=frLW8UVp_Ik Видео]'''. | ||
== Мультимодальные тематические модели == | == Мультимодальные тематические модели == | ||
Строка 109: | Строка 112: | ||
* Выявление тематических сообществ. Регуляризаторы для направленных и ненаправленных связей. | * Выявление тематических сообществ. Регуляризаторы для направленных и ненаправленных связей. | ||
* Регуляризаторы для выявления социальных ролей пользователей. | * Регуляризаторы для выявления социальных ролей пользователей. | ||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
== Тематические модели совстречаемости слов == | == Тематические модели совстречаемости слов == | ||
Строка 127: | Строка 124: | ||
* Синтаксический разбор. Нейросетевой синтаксический анализатор SyntaxNet. | * Синтаксический разбор. Нейросетевой синтаксический анализатор SyntaxNet. | ||
* Критерии тематичности фраз. | * Критерии тематичности фраз. | ||
+ | * Комбинирование синтаксической, статистической и тематической фильтрации фраз. | ||
'''Тематические модели дистрибутивной семантики.''' | '''Тематические модели дистрибутивной семантики.''' | ||
* Дистрибутивная гипотеза. Модели CBOW и SGNS в программе word2vec. | * Дистрибутивная гипотеза. Модели CBOW и SGNS в программе word2vec. | ||
Строка 138: | Строка 136: | ||
* ''Потапенко А. А.'' Векторные представления слов и документов. DataFest'4. [https://www.youtube.com/watch?v=KEXWC-ICH_Y '''Видео''']. | * ''Потапенко А. А.'' Векторные представления слов и документов. DataFest'4. [https://www.youtube.com/watch?v=KEXWC-ICH_Y '''Видео''']. | ||
- | == Тематическая сегментация | + | == Тематическая сегментация == |
Презентация: [[Media:Voron18ptm-segm.pdf|(PDF, 2,0 МБ)]] {{важно|— обновление ??.??.2018}}. | Презентация: [[Media:Voron18ptm-segm.pdf|(PDF, 2,0 МБ)]] {{важно|— обновление ??.??.2018}}. | ||
Строка 148: | Строка 146: | ||
* Метод TopicTiling. Критерии определения границ сегментов. | * Метод TopicTiling. Критерии определения границ сегментов. | ||
* Критерии качества сегментации. Оптимизация параметров модели TopicTiling. | * Критерии качества сегментации. Оптимизация параметров модели TopicTiling. | ||
+ | '''Позиционный регуляризатор в ARTM.''' | ||
+ | * Регуляризация и пост-обработка Е-шага. Формулы М-шага. | ||
+ | * Примеры регуляризаторов Е-шага. Разреживание распределения p(t|d,w). Сглаживание тематики слов по контексту. | ||
+ | |||
+ | == Визуализация и суммаризация тем == | ||
+ | Презентация: [[Media:Voron18ptm-vis.pdf|(PDF, ?,? МБ)]] {{важно|— обновление ??.??.2018}}. | ||
+ | |||
+ | '''Средства визуализации тематических моделей.''' | ||
+ | * Минимальные средства визуализации. | ||
+ | * Визуализация темпоральных, иерархических, сегментирующих моделей. | ||
+ | * Задача построения тематического спектра. | ||
+ | * Визуализатор VisARTM. | ||
'''Методы суммаризации текстов.''' | '''Методы суммаризации текстов.''' | ||
* Автоматическая суммаризация текстов: задачи и подходы. | * Автоматическая суммаризация текстов: задачи и подходы. | ||
Строка 153: | Строка 163: | ||
* Тематическая модель предложений для суммаризации. | * Тематическая модель предложений для суммаризации. | ||
* Семейство критериев качества суммаризации ROUGE. | * Семейство критериев качества суммаризации ROUGE. | ||
+ | '''Суммаризация и именование тем.''' | ||
+ | * Суммаризация темы. | ||
+ | * Автоматическое именование тем (topic labeling). | ||
== Байесовское обучение тематических моделей == | == Байесовское обучение тематических моделей == | ||
Строка 177: | Строка 190: | ||
* ''Потапенко А. А.'' [[Media:potapenko16BayesTM.pdf|Байесовское обучение тематических моделей]]. 2016. | * ''Потапенко А. А.'' [[Media:potapenko16BayesTM.pdf|Байесовское обучение тематических моделей]]. 2016. | ||
+ | <!--- | ||
+ | * Определение числа тем и регуляризатор отбора тем | ||
- | + | '''Трёхматричные и гиперграфовые модели.''' | |
- | + | * Модели трёхматричных разложений. Понятие порождающей модальности. | |
- | * | + | * Автор-тематическая модель (author-topic model). |
- | * | + | * Примеры транзакционных данных в рекомендательных системах, социальных и рекламных сетях. |
- | + | * Теорема о необходимом условии максимума регуляризованного правдоподобия для гиперграфовой ARTM. | |
- | |||
== Примеры приложений тематического моделирования == | == Примеры приложений тематического моделирования == | ||
Презентация: [[Media:Voron17ptm11.pdf|(PDF, 3,3 МБ)]] {{важно|— обновление 16.05.2017}}. | Презентация: [[Media:Voron17ptm11.pdf|(PDF, 3,3 МБ)]] {{важно|— обновление 16.05.2017}}. | ||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
'''Примеры приложений тематического моделирования.''' | '''Примеры приложений тематического моделирования.''' | ||
* Задача поиска релевантных тем в социальных сетях и новостных потоках. | * Задача поиска релевантных тем в социальных сетях и новостных потоках. | ||
Строка 247: | Строка 250: | ||
* Критерии качества ранжирования: MAP, DCG, NDCG. | * Критерии качества ранжирования: MAP, DCG, NDCG. | ||
* Оценка качества тематического поиска документов по их длинным фрагментам. | * Оценка качества тематического поиска документов по их длинным фрагментам. | ||
+ | |||
+ | * Вывод M-шага для негладкого регуляризатора. | ||
+ | * Тематическая модель текста и изображений. Задача аннотирования изображений. | ||
+ | * Модель для выделения поведений объектов в видеопотоке. | ||
--> | --> | ||
Строка 252: | Строка 259: | ||
# ''Воронцов К. В.'' [[Media:voron17survey-artm.pdf|Обзор вероятностных тематических моделей]]. {{важно|— обновление 31.07.2017}}. | # ''Воронцов К. В.'' [[Media:voron17survey-artm.pdf|Обзор вероятностных тематических моделей]]. {{важно|— обновление 31.07.2017}}. | ||
+ | # Hofmann T. Probabilistic latent semantic indexing // Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval. — New York, NY, USA: ACM, 1999. — Pp. 50–57. | ||
# Blei D. M., Ng A. Y., Jordan M. I. Latent Dirichlet allocation // Journal of Machine Learning Research. — 2003. — Vol. 3. — Pp. 993–1022. | # Blei D. M., Ng A. Y., Jordan M. I. Latent Dirichlet allocation // Journal of Machine Learning Research. — 2003. — Vol. 3. — Pp. 993–1022. | ||
# Asuncion A., Welling M., Smyth P., Teh Y. W. On smoothing and inference for topic models // Proceedings of the International Conference on Uncertainty in Artificial Intelligence. — 2009. | # Asuncion A., Welling M., Smyth P., Teh Y. W. On smoothing and inference for topic models // Proceedings of the International Conference on Uncertainty in Artificial Intelligence. — 2009. | ||
- | |||
# Янина А. О., Воронцов К. В. [http://jmlda.org/papers/doc/2016/no2/Ianina2016Multimodal.pdf Мультимодальные тематические модели для разведочного поиска в коллективном блоге] // Машинное обучение и анализ данных. 2016. T.2. №2. С.173-186. | # Янина А. О., Воронцов К. В. [http://jmlda.org/papers/doc/2016/no2/Ianina2016Multimodal.pdf Мультимодальные тематические модели для разведочного поиска в коллективном блоге] // Машинное обучение и анализ данных. 2016. T.2. №2. С.173-186. | ||
+ | |||
<!-- | <!-- | ||
# ''Воронцов К.В.'' Тематическое моделирование в BigARTM: теория, алгоритмы, приложения. [[Media:Voron-2015-BigARTM.pdf|Voron-2015-BigARTM.pdf]]. | # ''Воронцов К.В.'' Тематическое моделирование в BigARTM: теория, алгоритмы, приложения. [[Media:Voron-2015-BigARTM.pdf|Voron-2015-BigARTM.pdf]]. | ||
Строка 268: | Строка 276: | ||
# Daud A., Li J., Zhou L., Muhammad F. Knowledge discovery through directed probabilistic topic models: a survey // Frontiers of Computer Science in China.— 2010.— Vol. 4, no. 2. — Pp. 280–301. | # Daud A., Li J., Zhou L., Muhammad F. Knowledge discovery through directed probabilistic topic models: a survey // Frontiers of Computer Science in China.— 2010.— Vol. 4, no. 2. — Pp. 280–301. | ||
# Dempster A. P., Laird N. M., Rubin D. B. Maximum likelihood from incomplete data via the EM algorithm // J. of the Royal Statistical Society, Series B. — 1977. — no. 34. — Pp. 1–38. | # Dempster A. P., Laird N. M., Rubin D. B. Maximum likelihood from incomplete data via the EM algorithm // J. of the Royal Statistical Society, Series B. — 1977. — no. 34. — Pp. 1–38. | ||
- | |||
# Hoffman M. D., Blei D. M., Bach F. R. Online Learning for Latent Dirichlet Allocation // NIPS, 2010. Pp. 856–864. | # Hoffman M. D., Blei D. M., Bach F. R. Online Learning for Latent Dirichlet Allocation // NIPS, 2010. Pp. 856–864. | ||
+ | # Lu Y., Mei Q., Zhai C. Investigating task performance of probabilistic topic models: an empirical study of PLSA and LDA // Information Retrieval. — 2011. — Vol.14, no.2. — Pp. 178–203. | ||
# Vorontsov K. V., Potapenko A. A. [[Media:Voron14mlj.pdf|Additive Regularization of Topic Models]] // Machine Learning. Special Issue “Data Analysis and Intelligent Optimization with Applications”: Volume 101, Issue 1 (2015), Pp. 303-323. [[Media:Voron14mlj-rus.pdf|Русский перевод]] | # Vorontsov K. V., Potapenko A. A. [[Media:Voron14mlj.pdf|Additive Regularization of Topic Models]] // Machine Learning. Special Issue “Data Analysis and Intelligent Optimization with Applications”: Volume 101, Issue 1 (2015), Pp. 303-323. [[Media:Voron14mlj-rus.pdf|Русский перевод]] | ||
# Vorontsov K. V., Frei O. I., Apishev M. A., Romov P. A., Suvorova M. A., Yanina A. O. [[Media:Voron15cikm-tm.pdf|Non-Bayesian Additive Regularization for Multimodal Topic Modeling of Large Collections]] // Proceedings of the 2015 Workshop on Topic Models: Post-Processing and Applications, October 19, 2015, Melbourne, Australia. ACM, New York, NY, USA. pp. 29–37. | # Vorontsov K. V., Frei O. I., Apishev M. A., Romov P. A., Suvorova M. A., Yanina A. O. [[Media:Voron15cikm-tm.pdf|Non-Bayesian Additive Regularization for Multimodal Topic Modeling of Large Collections]] // Proceedings of the 2015 Workshop on Topic Models: Post-Processing and Applications, October 19, 2015, Melbourne, Australia. ACM, New York, NY, USA. pp. 29–37. | ||
Строка 287: | Строка 295: | ||
[[Категория:Учебные курсы]] | [[Категория:Учебные курсы]] | ||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- |
Версия 21:22, 30 марта 2018
Спецкурс читается студентам 2—5 курсов на кафедре «Математические методы прогнозирования» ВМиК МГУ с 2013 года.
В спецкурсе изучается вероятностное тематическое моделирование (topic modeling) коллекций текстовых документов. Тематическое моделирование рассматривается как ключевая математическая технология перспективных информационно-поисковых систем нового поколения, основанных на парадигме семантического разведочного поиска (exploratory search). Рассматриваются также прикладные задачи классификации, сегментации и суммаризации текстов, задачи анализа данных социальных сетей и рекомендательных систем. Развивается многокритериальный подход к построению композитных тематических моделей с заданными свойствами — аддитивная регуляризация тематических моделей (АРТМ). Он основан на регуляризации некорректно поставленных задач стохастического матричного разложения. Рассматриваются способы измерения и оптимизации важнейших свойств тематических моделей — правдоподобия, интерпретируемости, устойчивости, полноты. Рассматриваются задачи анализа и классификации символьных последовательностей неязыковой природы, в частности, аминокислотных и нуклеотидных последовательностей, дискретизированных биомедицинских сигналов. Предполагается проведение студентами численных экспериментов на модельных и реальных данных с помощью библиотеки тематического моделирования BigARTM.
От студентов требуются знания курсов линейной алгебры, математического анализа, теории вероятностей. Знание математической статистики, методов оптимизации, машинного обучения, языков программирования Python и С++ желательно, но не обязательно.
Материалы для первого ознакомления:
- Обзорная презентация: (PDF, 4,4 МБ) — обновление 14.03.2016.
- Видеолекция на ПостНауке: Разведочный информационный поиск.
Основной материал:
- Обзор вероятностных тематических моделей — обновление 14.07.2017.
Краткая ссылка на эту страницу: bit.ly/2EGWcjA.
Программа курса
Условием сдачи спецкурса является выполнение индивидуальных практических заданий.
Введение
Презентация: (PDF, 1,2 МБ) — обновление 15.02.2018.
Цели и задачи тематического моделирования.
- Понятие «темы», цели и задачи тематического моделирования.
- Основные предположения. Гипотеза «мешка слов» (bag-of-words). Методы предварительной обработки текстов.
- Вероятностное пространство. Тема как латентная (ненаблюдаемая) переменная. Гипотеза условной независимости.
- Порождающая модель документа как вероятностной смеси тем.
- Упрощённая вероятностная модель текста и элементарное решение обратной задачи
- Постановка обратной задачи восстановления параметров модели по данным.
Математический инструментарий.
- Принцип максимума правдоподобия.
- Условия Каруша–Куна–Таккера.
- Униграммные модели коллекции и документа.
Аддитивная регуляризация тематических моделей.
- Теорема о необходимом условии максимума регуляризованного правдоподобия для ARTM.
- EM-алгоритм и его элементарная интерпретация. Формула Байеса и частотные оценки условных вероятностей.
- Вероятностный латентный семантический анализ (probabilistic latent semantic analysis, PLSA).
- Рациональный ЕМ-алгоритм (встраивание Е-шага внутрь М-шага). Оффлайновый регуляризованный EM-алгоритм.
- Онлайновый регуляризованный EM-алгоритм. Распараллеливание.
- Библиотека BigARTM.
Обзор базовых инструментов
Александр Романенко, Мурат Апишев. Презентация: (zip, 0,6 МБ) — обновление 17.02.2017.
Предварительная обработка текстов
- Парсинг "сырых" данных.
- Токенизация, стемминг и лемматизация.
- Выделение энграмм.
- Законы Ципфа и Хипса. Фильтрация словаря коллекции. Удаление стоп-слов.
Библиотека BigARTM
- Методологические рекоммендации по проведению экспериментов.
- Установка BigARTM.
- Формат и импорт входных данных.
- Обучение простой модели (без регуляризации): создание, инициализация, настройка и оценивание модели.
- Инструмент визуализации тематических моделей VisARTM. Основные возможности, демонстрация работы.
Дополнительный материал:
- Презентация: (PDF, 1,5 МБ) — обновление 17.03.2017.
- Видео — обновление 22.03.2017.
- Воркшоп по BigARTM на DataFest'4. Видео.
Аддитивная регуляризация тематических моделей
Презентация: (PDF, 3,1 МБ) — обновление 15.03.2018.
Теория ARTM
- Мультимодальные тематические модели
- Регуляризаторы сглаживания и разреживания
- Разделение тем на предметные и фоновые
Время и пространство
- Регуляризаторы времени
- Эксперименты на коллекции пресс-релизов
- Гео-пространственные модели
Иерархические тематические модели
- Нисходящая послойная стратегия
- Оценивание качества тематических иерархий
- Визуализация иерархии
Разведочный информационный поиск
Презентация: (PDF, 4,5 МБ) — обновление 15.03.2018.
Разведочный информационный поиск
- Концепция разведочного поиска
- Визуализация больших текстовых коллекций
- Сценарий разведочного поиска
Эксперименты с тематическим поиском
- Методика эксперимента
- Построение тематической модели
- Оптимизация гиперпараметров
Эксперименты с тематическими моделями
- Измерение качества тематической модели
- Многокритериальное оценивание качества модели
- Определение числа тем и регуляризатор отбора тем
Дополнительный материал:
- Разведочный информационный поиск (exploratory search). Видео.
Мультимодальные тематические модели
Презентация: (PDF, 1,4 МБ) — обновление 22.03.2018.
Мультиязычные тематические модели.
- Параллельные и сравнимые коллекции.
- Регуляризаторы для учёта двуязычных словарей.
- Кросс-язычный информационный поиск.
Зависимости, корреляции, связи.
- Тематические модели классификации и регрессии.
- Модель коррелированных тем CTM (Correlated Topic Model).
- Регуляризаторы гиперссылок и цитирования. Выявление тематических влияний в научных публикациях.
Социальные сети.
- Выявление тематических сообществ. Регуляризаторы для направленных и ненаправленных связей.
- Регуляризаторы для выявления социальных ролей пользователей.
Тематические модели совстречаемости слов
Презентация: (PDF, 1,9 МБ) — обновление 29.03.2018.
Мультиграммные модели.
- Модель BigramTM.
- Модель Topical N-grams (TNG).
- Мультимодальная мультиграммная модель.
Автоматическое выделение терминов.
- Алгоритм TopMine для быстрого поиска частых фраз. Критерии выделения коллокаций.
- Синтаксический разбор. Нейросетевой синтаксический анализатор SyntaxNet.
- Критерии тематичности фраз.
- Комбинирование синтаксической, статистической и тематической фильтрации фраз.
Тематические модели дистрибутивной семантики.
- Дистрибутивная гипотеза. Модели CBOW и SGNS в программе word2vec.
- Модель битермов BTM (Biterm Topic Model) для тематизации коллекций коротких текстов.
- Модели WNTM (Word Network Topic Model) и WTM (Word Topic Model). Связь с моделью word2vec.
- Понятие когерентности (согласованности). Экспериментально установленная связь когерентности и интерпретируемости.
- Регуляризаторы когерентности.
Дополнительный материал:
- Потапенко А. А. Векторные представления слов и документов. DataFest'4. Видео.
Тематическая сегментация
Презентация: (PDF, 2,0 МБ) — обновление ??.??.2018.
Модели связного текста.
- Тематическая модель предложений и модель коротких сообщений Twitter-LDA.
- Контекстная документная кластеризация (CDC).
- Метод лексических цепочек.
Тематическая сегментация.
- Метод TopicTiling. Критерии определения границ сегментов.
- Критерии качества сегментации. Оптимизация параметров модели TopicTiling.
Позиционный регуляризатор в ARTM.
- Регуляризация и пост-обработка Е-шага. Формулы М-шага.
- Примеры регуляризаторов Е-шага. Разреживание распределения p(t|d,w). Сглаживание тематики слов по контексту.
Визуализация и суммаризация тем
Презентация: (PDF, ?,? МБ) — обновление ??.??.2018.
Средства визуализации тематических моделей.
- Минимальные средства визуализации.
- Визуализация темпоральных, иерархических, сегментирующих моделей.
- Задача построения тематического спектра.
- Визуализатор VisARTM.
Методы суммаризации текстов.
- Автоматическая суммаризация текстов: задачи и подходы.
- Релаксационный метод для многокритериальной дискретной оптимизации.
- Тематическая модель предложений для суммаризации.
- Семейство критериев качества суммаризации ROUGE.
Суммаризация и именование тем.
- Суммаризация темы.
- Автоматическое именование тем (topic labeling).
Байесовское обучение тематических моделей
Презентация: (PDF, 1,3 МБ) — обновление ??.??.2018.
EM-алгоритм.
- Задачи оценивания скрытых параметров вероятностной модели.
- EM-алгоритм для максимизации неполного правдоподобия. Сходимость в слабом смысле.
- EM-алгоритм для модели PLSA.
- EM-алгоритм с регуляризацией.
Методы оценивания параметров в модели LDA.
- Модель LDA. Свойства распределения Дирихле.
- Максимизация апостериорной вероятности для модели LDA.
- Вариационный байесовский вывод для модели LDA.
- Сэмплирование Гиббса для модели LDA. Сопряжённые распределения.
- Оптимизация гиперпараметров распределения Дирихле.
Языки описания вероятностных порождающих моделей.
- Графическая плоская нотация (plate notation). Stop using plate notation.
- Псевдокод порождающего процесса (genarative story).
- Постановки оптимизационных задач.
- Как читать статьи по баейсовским моделям и строить эквивалентные ARTM-модели.
Дополнительный материал:
- Потапенко А. А. Байесовское обучение тематических моделей. 2016.
Литература
- Воронцов К. В. Обзор вероятностных тематических моделей. — обновление 31.07.2017.
- Hofmann T. Probabilistic latent semantic indexing // Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval. — New York, NY, USA: ACM, 1999. — Pp. 50–57.
- Blei D. M., Ng A. Y., Jordan M. I. Latent Dirichlet allocation // Journal of Machine Learning Research. — 2003. — Vol. 3. — Pp. 993–1022.
- Asuncion A., Welling M., Smyth P., Teh Y. W. On smoothing and inference for topic models // Proceedings of the International Conference on Uncertainty in Artificial Intelligence. — 2009.
- Янина А. О., Воронцов К. В. Мультимодальные тематические модели для разведочного поиска в коллективном блоге // Машинное обучение и анализ данных. 2016. T.2. №2. С.173-186.
Ссылки
- Тематическое моделирование
- Аддитивная регуляризация тематических моделей
- Коллекции документов для тематического моделирования
- BigARTM
- Видеозапись лекции на ТМШ, 19 июня 2015
- Воронцов К.В. Практическое задание по тематическому моделированию, 2014.
Подстраницы
Вероятностные тематические модели (курс лекций, К.В.Воронцов)/2015 | Вероятностные тематические модели (курс лекций, К.В.Воронцов)/2016 | Вероятностные тематические модели (курс лекций, К.В.Воронцов)/2017 |
Вероятностные тематические модели (курс лекций, К.В.Воронцов)/2018 | Вероятностные тематические модели (курс лекций, К.В.Воронцов)/2019, ВМК | Вероятностные тематические модели (курс лекций, К.В.Воронцов)/2020 |
Вероятностные тематические модели (курс лекций, К.В.Воронцов)/2021 |