Вероятностные тематические модели (курс лекций, К.В.Воронцов)
Материал из MachineLearning.
м |
(переработка) |
||
Строка 3: | Строка 3: | ||
Спецкурс читается студентам 2—5 курсов на кафедре «[[Математические методы прогнозирования (кафедра ВМиК МГУ)|Математические методы прогнозирования]]» [[ВМиК]] [[МГУ]] с 2013 года. | Спецкурс читается студентам 2—5 курсов на кафедре «[[Математические методы прогнозирования (кафедра ВМиК МГУ)|Математические методы прогнозирования]]» [[ВМиК]] [[МГУ]] с 2013 года. | ||
- | В спецкурсе | + | В спецкурсе изучается вероятностное тематическое моделирование (topic modeling) коллекций текстовых документов. Развивается многокритериальный подход к решению некорректно поставленной задачи стохастического матричного разложения — [[аддитивная регуляризация тематических моделей]]. Рассматриваются свойства интерпретируемости, устойчивости и полноты тематических моделей, а также способы их измерения. Рассматриваются прикладные задачи классификации и категоризации текстов, информационного поиска, персонализации и рекомендательных систем. Рассматриваются задачи анализа и классификации символьных последовательностей неязыковой природы, в частности, аминокислотных и нуклеотидных последовательностей, дискретизированных биомедицинских сигналов. Предполагается проведение студентами численных экспериментов на модельных и реальных данных. |
- | От студентов требуются знания курсов линейной алгебры, математического анализа, теории вероятностей. Знание математической статистики, методов оптимизации | + | От студентов требуются знания курсов линейной алгебры, математического анализа, теории вероятностей. Знание математической статистики, методов оптимизации, машинного обучения, языков программирования Python и С++ желательно, но не обязательно. |
Условием сдачи спецкурса является выполнение индивидуальных практических заданий. | Условием сдачи спецкурса является выполнение индивидуальных практических заданий. | ||
- | * Файл с описанием заданий: [[Media:voron- | + | * Файл с описанием заданий: [[Media:voron-2016-task-PTM.pdf|voron-2016-task-PTM.pdf]] |
Строка 19: | Строка 19: | ||
* Эмпирические законы Ципфа, Ципфа-Мандельброта, Хипса. | * Эмпирические законы Ципфа, Ципфа-Мандельброта, Хипса. | ||
* Постановка задачи классификации текстов. Объекты, признаки, классы, обучающая выборка. | * Постановка задачи классификации текстов. Объекты, признаки, классы, обучающая выборка. | ||
- | |||
* Линейный классификатор. Наивный байесовский классификатор. | * Линейный классификатор. Наивный байесовский классификатор. | ||
- | * Задача распознавание жанра | + | * Задача распознавания языка текста. |
+ | * Задача распознавание жанра текста. Распознавание научных текстов. Примеры признаков. | ||
* Задача категоризации текстов, сведение к последовательности задач классификации. | * Задача категоризации текстов, сведение к последовательности задач классификации. | ||
+ | * Задача анализа тональности. | ||
'''Задачи предварительной обработки текстов.''' | '''Задачи предварительной обработки текстов.''' | ||
- | * Очистка | + | * Очистка: удаление номеров страниц (колонтитулов), переносов, опечаток, оглавлений, таблиц, рисунков, нетекстовой информации. |
* Лемматизация и стемминг. Сравнение готовых инструментальных средств. | * Лемматизация и стемминг. Сравнение готовых инструментальных средств. | ||
* Выделение и удаление стоп-слов и редких слов. | * Выделение и удаление стоп-слов и редких слов. | ||
Строка 31: | Строка 32: | ||
'''Задачи информационного поиска.''' | '''Задачи информационного поиска.''' | ||
* Задача поиска документов по запросу. Инвертированный индекс. | * Задача поиска документов по запросу. Инвертированный индекс. | ||
- | * Меры сходства векторов частот. Косинусная мера сходства. Расстояние Хеллингера. | + | * Меры сходства векторов частот. Косинусная мера сходства. Расстояние Хеллингера. |
+ | * Дивергенция Кульбака-Леблера и её свойства. Дивергенция Кресси-Рида. | ||
* Критерий текстовой релевантности TF-IDF. Вероятностная модель и вывод формулы TF-IDF. | * Критерий текстовой релевантности TF-IDF. Вероятностная модель и вывод формулы TF-IDF. | ||
* Задача ранжирования. Примеры признаков. Формирование асессорских обучающих выборок. | * Задача ранжирования. Примеры признаков. Формирование асессорских обучающих выборок. | ||
Строка 48: | Строка 50: | ||
'''Мотивации вероятностного тематического моделирования | '''Мотивации вероятностного тематического моделирования | ||
- | * Идея | + | * Идея понижения размерности: переход от вектора (терминов) к вектору тем. |
- | * Цели тематического моделирования: поиск научной информации, | + | * Цели тематического моделирования: разведочный поиск научной информации, навигация и систематизация, агрегирование новостных потоков, классификация и категоризация текстов, обход проблем синонимии и омонимии. |
'''Задача тематического моделирования.''' | '''Задача тематического моделирования.''' | ||
Строка 56: | Строка 58: | ||
'''Вероятностный латентный семантический анализ (PLSA).''' | '''Вероятностный латентный семантический анализ (PLSA).''' | ||
- | |||
* Принцип максимума правдоподобия, аналитическое решение задачи о стационарной точке функции Лагранжа, формулы M-шага. | * Принцип максимума правдоподобия, аналитическое решение задачи о стационарной точке функции Лагранжа, формулы M-шага. | ||
+ | * Элементарная интерпретация ЕМ-алгоритма: Е-шаг как формула Байеса для апостериорной вероятности темы, М-шаг как частотные оценки условных вероятностей. | ||
* Рациональный ЕМ-алгоритм (встраивание Е-шага внутрь М-шага). | * Рациональный ЕМ-алгоритм (встраивание Е-шага внутрь М-шага). | ||
+ | |||
+ | '''Онлайновый ЕМ-алгоритм (OEM).''' | ||
+ | * Проблема больших данных. | ||
+ | * Эвристика разделения М-шага. | ||
+ | * Эвристика разделения коллекции на пачки документов. | ||
+ | * Добавление новых документов (folding-in). | ||
'''Проведение экспериментов на модельных данных.''' | '''Проведение экспериментов на модельных данных.''' | ||
Строка 74: | Строка 82: | ||
# Исследовать влияние случайного начального приближения на устойчивость решения. Построить эмпирические распределения и доверительные интервалы для расстояний Хеллингера между истинными матрицами и восстановленными. | # Исследовать влияние случайного начального приближения на устойчивость решения. Построить эмпирические распределения и доверительные интервалы для расстояний Хеллингера между истинными матрицами и восстановленными. | ||
# Исследовать влияние разреженности матриц Фи и Тета на устойчивость решения. | # Исследовать влияние разреженности матриц Фи и Тета на устойчивость решения. | ||
+ | # Исследовать полноту решения. Сколько запусков со случайным начальным приближением необходимо сделать, чтобы найти все исходные темы? Как различность и разреженность исходных тем влияет на полноту? | ||
'''Литература:''' [Hofmann 1999]. | '''Литература:''' [Hofmann 1999]. | ||
- | === | + | ===Латентное размещение Дирихле=== |
- | + | ||
* ''Напоминания.'' Задача тематического моделирования коллекции текстовых документов. Модель PLSA, формулы Е-шага и М-шага. | * ''Напоминания.'' Задача тематического моделирования коллекции текстовых документов. Модель PLSA, формулы Е-шага и М-шага. | ||
'''Латентное размещение Дирихле (LDA)''' | '''Латентное размещение Дирихле (LDA)''' | ||
- | * | + | * Свойства [[Распределение Дирихле|распределения Дирихле]]. |
- | + | * Принцип максимума апостериорной вероятности. Модифицированные формулы М-шага. | |
- | + | * [[Байесовский вывод]]. Свойство сопряжённости мультиномиального распределения и распределения Дирихле. Другие модифицированные формулы М-шага. | |
- | * | + | * Обзор модификаций формул М-шага. |
- | * | + | * Методы оптимизации гиперпараметров. |
+ | * Небайесовская интерпретация модели LDA. | ||
+ | * Сравнение LDA и PLSA. Экспериментальные факты: LDA скорее улучшает оценки редких слов, чем снижает переобучение. | ||
'''Стохастический ЕМ-алгоритм (SEM).''' | '''Стохастический ЕМ-алгоритм (SEM).''' | ||
* Гипотеза разреженности апоcтериорного распределения тем p(t|d,w). | * Гипотеза разреженности апоcтериорного распределения тем p(t|d,w). | ||
- | * Алгоритм сэмплирования Гиббса | + | * Эвристика сэмплирования. Алгоритм сэмплирования Гиббса. |
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
'''Способы формирования начальных приближений.''' | '''Способы формирования начальных приближений.''' | ||
* Случайная инициализация. | * Случайная инициализация. | ||
* Инициализация по документам. | * Инициализация по документам. | ||
+ | * Контекстная документная кластеризация. | ||
* Поиск якорных слов. Алгоритм Ароры. | * Поиск якорных слов. Алгоритм Ароры. | ||
Строка 108: | Строка 113: | ||
# Исследовать влияние размера первой пачки и последующих пачек на качество модели. | # Исследовать влияние размера первой пачки и последующих пачек на качество модели. | ||
# Исследовать влияние выбора числа итераций на внутреннем и внешнем циклах алгоритма OEM на качество и скорость построения модели. | # Исследовать влияние выбора числа итераций на внутреннем и внешнем циклах алгоритма OEM на качество и скорость построения модели. | ||
- | # Исследовать возможность улучшения | + | # Исследовать возможность улучшения качества модели с помощью второго прохода по коллекции (без инициализации p(w|t)). |
- | # Исследовать влияние | + | # Исследовать влияние гиперпараметров на правдоподобие модели и точность восстановления. |
- | '''Литература:''' [Hoffman 2010, Asuncion 2009]. | + | '''Литература:''' [Hoffman 2010], [Asuncion 2009]. |
===Аддитивная регуляризация тематических моделей=== | ===Аддитивная регуляризация тематических моделей=== | ||
* ''Напоминания''. Вероятностная тематическая модель. Принцип максимума правдоподобия. PLSA. EM-алгоритм. | * ''Напоминания''. Вероятностная тематическая модель. Принцип максимума правдоподобия. PLSA. EM-алгоритм. | ||
- | |||
'''Многокритериальная регуляризация.''' | '''Многокритериальная регуляризация.''' | ||
Строка 122: | Строка 126: | ||
* Общая формула M-шага для регуляризованного ЕМ-алгоритма. | * Общая формула M-шага для регуляризованного ЕМ-алгоритма. | ||
- | ''' | + | '''Регуляризаторы сглаживания и разреживания.''' |
- | * | + | * Максимизация и минимизация KL-дивергенции. |
- | + | * Альтернативный вариант разреживания через L0-регуляризацию. | |
- | * | + | |
* Связь разреженности и единственности неотрицательного матричного разложения. | * Связь разреженности и единственности неотрицательного матричного разложения. | ||
+ | * Разреживание предметных тем и сглаживание фоновых тем. Автоматическое выделение стоп-слов. | ||
- | ''' | + | '''Робастные тематические модели.''' |
- | * | + | * Робастная модель с фоном и шумом. |
- | * | + | * Упрощённая робастная модель. |
- | * | + | * Эффект повышения правдоподобия (перплексии) в робастных моделях с шумом. |
- | + | ||
- | + | ||
- | + | ||
- | ''' | + | '''Регуляризаторы частичного обучения.''' |
- | + | * Частичное обучение как выборочное сглаживание. | |
- | * Частичное обучение как выборочное сглаживание. | + | * Сфокусированные тематические модели. Использование словаря для выделения предметных тем. |
+ | * Пример: выделение тематики эпидемий, этнических конфликтов. | ||
'''Ковариационные регуляризаторы.''' | '''Ковариационные регуляризаторы.''' | ||
- | * | + | * Дековариация тем. |
- | + | ||
- | + | ||
* Тематические модели цитирования. | * Тематические модели цитирования. | ||
- | + | * Задача выявления корреляций между темами, модель CTM. | |
- | + | * Оценивание параметров (матрицы ковариаций) в модели CTM. | |
- | + | ||
- | + | ||
- | * | + | |
- | * | + | |
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
'''Задание 1.3''' | '''Задание 1.3''' | ||
Обязательные пункты: 1 и любой из остальных. | Обязательные пункты: 1 и любой из остальных. | ||
# Реализовать разреживание в онлайновом алгоритме OEM. | # Реализовать разреживание в онлайновом алгоритме OEM. | ||
- | # Исследовать зависимость | + | # Исследовать зависимость правдоподобия модели и точности восстановления от степени разреженности исходных модельных данных. |
- | # Исследовать влияние разреживания на | + | # Исследовать влияние разреживания на правдоподобие модели и точность восстановления. Проверить гипотезу, что если исходные данные разрежены, то разреживание существенно улучшает точность восстановления и слабо влияет на правдоподобие модели. |
- | # Исследовать влияние сглаживания на | + | # Исследовать влияние частичной разметки на правдоподобие модели и точность восстановления. Проверить гипотезу, что небольшой доли правильно размеченных документов уже достаточно для существенного улучшения правдоподобия и устойчивости модели. |
+ | # Исследовать влияние сглаживания на правдоподобие модели и точность восстановления. | ||
- | '''Литература:''' [ | + | '''Литература:''' [Воронцов, 2013, 2015], [Chemudugunta, 2006]. |
- | === | + | ===Оценивание качества тематических моделей=== |
'''Реальные данные.''' | '''Реальные данные.''' | ||
Строка 175: | Строка 167: | ||
'''Перплексия и правдоподобие.''' | '''Перплексия и правдоподобие.''' | ||
* Определение и интерпретация перплекcии. | * Определение и интерпретация перплекcии. | ||
- | * Перплексия контрольной коллекции. Проблема новых слов в контрольной коллекции | + | * Перплексия контрольной коллекции. Проблема новых слов в контрольной коллекции. |
- | + | * Проблема сравнения моделей с разными словарями. | |
- | + | * Относительная перплексия. | |
- | + | ||
- | * | + | |
- | * | + | |
''' Оценивание качества темы.''' | ''' Оценивание качества темы.''' | ||
- | * | + | * Лексическое ядро темы: множество типичных терминов темы. |
- | * | + | * Чистота и контрастность темы |
- | * Однородность ( | + | * Документное ядро темы: множество типичных документов темы. |
- | * Конфликтность темы | + | * Однородность темы: распределение расстояний между p(w|t) и p(w|t,d). |
+ | * Конфликтность темы: близость темы к другим темам. | ||
'''Статистические тесты условной независимости.''' | '''Статистические тесты условной независимости.''' | ||
- | * Методология проверки статистических гипотез. Критерий согласия хи-квадрат Пирсона | + | * Методология проверки статистических гипотез. Критерий согласия хи-квадрат Пирсона. |
* Проблема разреженности распределения. Эксперименты, показывающие неадекватность асимптотического распределения статистики хи-квадрат. | * Проблема разреженности распределения. Эксперименты, показывающие неадекватность асимптотического распределения статистики хи-квадрат. | ||
* Статистики модифицированного хи-квадрат, Кульбака-Лейблера, Хеллингера. | * Статистики модифицированного хи-квадрат, Кульбака-Лейблера, Хеллингера. | ||
* Обобщённое семейство статистик Кресси-Рида. | * Обобщённое семейство статистик Кресси-Рида. | ||
- | * | + | * Эмпирическое оценивание квантилей распределения статистики Кресси-Рида. |
- | * | + | * Применения теста условной независимости для поиска плохо смоделированных тем, документов, терминов. Поиск тем для расщепления. |
'''Литература:''' [Newman, 2009–2011]. | '''Литература:''' [Newman, 2009–2011]. | ||
- | ===Внешние | + | ===Внешние оценки качества тематических моделей=== |
- | '''Оценивание интерпретируемости | + | '''Оценивание интерпретируемости тем.''' |
- | * | + | * Экспертное оценивание интерпретируемости. |
- | * | + | * Асессорская разметка терминов и документов, релевантных теме. |
+ | * Метод интрузий. | ||
+ | * Радикальное улучшение интерпретируемости в n-граммных тематических моделях. | ||
+ | |||
+ | '''Когерентность.''' | ||
+ | * Определение когерентности. | ||
+ | * Эксперименты, показывающие связь когерентности и интерпретируемости. | ||
+ | * Способы оценивания совместной встречаемости слов. | ||
+ | |||
+ | '''Суммаризация темы.''' | ||
+ | * Проблема визуализации тем. | ||
+ | * Выделение тематичных слов и предложений. | ||
+ | * Кластеризация тематичных предложений. | ||
+ | * Ранжирование тематичных предложений. | ||
+ | * Асессорская разметка предложений, релевантных теме. | ||
'''Критерии качества классификации и ранжирования.''' | '''Критерии качества классификации и ранжирования.''' | ||
Строка 214: | Строка 218: | ||
# В экспериментах на реальных данных построить зависимости перплексии обучающей и контрольной коллекции от числа итераций и числа тем. | # В экспериментах на реальных данных построить зависимости перплексии обучающей и контрольной коллекции от числа итераций и числа тем. | ||
- | '''Литература:''' | + | '''Литература:''' |
- | === | + | ===Определение числа тем и иерархические модели=== |
- | + | ||
- | |||
- | |||
- | |||
- | |||
- | |||
- | + | '''Литература:''' . | |
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | '''Литература:''' | + | |
Строка 323: | Строка 303: | ||
==Литература== | ==Литература== | ||
'''Основная литература''' | '''Основная литература''' | ||
- | + | # Vorontsov K. V., Potapenko A. A. [[Media:Voron14mlj.pdf|Additive Regularization of Topic Models]] // Machine Learning. Special Issue “Data Analysis and Intelligent Optimization with Applications”: Volume 101, Issue 1 (2015), Pp. 303-323. [[Media:Voron14mlj-rus.pdf|Русский перевод]] | |
+ | # Vorontsov K. V., Frei O. I., Apishev M. A., Romov P. A., Suvorova M. A., Yanina A. O. [[Media:Voron15cikm-tm.pdf|Non-Bayesian Additive Regularization for Multimodal Topic Modeling of Large Collections]] // Proceedings of the 2015 Workshop on Topic Models: Post-Processing and Applications, October 19, 2015, Melbourne, Australia. ACM, New York, NY, USA. pp. 29–37. | ||
# Маннинг К., Рагхаван П., Шютце Х. Введение в информационный поиск. — Вильямс, 2011. | # Маннинг К., Рагхаван П., Шютце Х. Введение в информационный поиск. — Вильямс, 2011. | ||
# Daud A., Li J., Zhou L., Muhammad F. Knowledge discovery through directed probabilistic topic models: a survey // Frontiers of Computer Science in China.— 2010.— Vol. 4, no. 2. — Pp. 280–301. | # Daud A., Li J., Zhou L., Muhammad F. Knowledge discovery through directed probabilistic topic models: a survey // Frontiers of Computer Science in China.— 2010.— Vol. 4, no. 2. — Pp. 280–301. | ||
Строка 329: | Строка 310: | ||
'''Дополнительная литература''' | '''Дополнительная литература''' | ||
- | # Воронцов К. В., Потапенко А. А. | + | # Воронцов К. В., Потапенко А. А. [http://jmlda.org/papers/doc/2013/no6/Vorontsov2013TopicModeling.pdf Модификации EM-алгоритма для вероятностного тематического моделирования] // Машинное обучение и анализ данных. — 2013. — T. 1, № 6. — С. 657–686. |
- | # | + | # Воронцов К. В., Фрей А. И., Ромов П. А., Янина А. О., Суворова М. А., Апишев М. А. [[Media:Voron15damdid.pdf|BigARTM: библиотека с открытым кодом для тематического моделирования больших текстовых коллекций]] // Аналитика и управление данными в областях с интенсивным использованием данных. XVII Международная конференция DAMDID/RCDL’2015, Обнинск, 13-16 октября 2015. |
- | + | ||
# Blei D. M., Ng A. Y., Jordan M. I. Latent Dirichlet allocation // Journal of Machine Learning Research. — 2003. — Vol. 3. — Pp. 993–1022. | # Blei D. M., Ng A. Y., Jordan M. I. Latent Dirichlet allocation // Journal of Machine Learning Research. — 2003. — Vol. 3. — Pp. 993–1022. | ||
# Chemudugunta C., Smyth P., Steyvers M. Modeling general and specific aspects of documents with a probabilistic topic model // Advances in Neural Information Processing Systems. — MIT Press, 2006. — Vol. 19. — Pp. 241–248. | # Chemudugunta C., Smyth P., Steyvers M. Modeling general and specific aspects of documents with a probabilistic topic model // Advances in Neural Information Processing Systems. — MIT Press, 2006. — Vol. 19. — Pp. 241–248. | ||
Строка 339: | Строка 319: | ||
# Lu Y., Mei Q., Zhai C. Investigating task performance of probabilistic topic models: an empirical study of PLSA and LDA // Information Retrieval. — 2011. — Vol.14, no.2. — Pp. 178–203. | # Lu Y., Mei Q., Zhai C. Investigating task performance of probabilistic topic models: an empirical study of PLSA and LDA // Information Retrieval. — 2011. — Vol.14, no.2. — Pp. 178–203. | ||
# Wallach H., Mimno D., McCallum A. Rethinking LDA: Why priors matter // Advances in Neural Information Processing Systems 22 / Ed. by Y. Bengio, D. Schuurmans, J. Lafferty, C. K. I. Williams, A. Culotta. — 2009. — Pp. 1973–1981. | # Wallach H., Mimno D., McCallum A. Rethinking LDA: Why priors matter // Advances in Neural Information Processing Systems 22 / Ed. by Y. Bengio, D. Schuurmans, J. Lafferty, C. K. I. Williams, A. Culotta. — 2009. — Pp. 1973–1981. | ||
- | |||
== Ссылки == | == Ссылки == | ||
* [[Тематическое моделирование]] | * [[Тематическое моделирование]] | ||
+ | * [[Аддитивная регуляризация тематических моделей]] | ||
+ | * [[Коллекции документов для тематического моделирования]] | ||
+ | * [[BigARTM]] | ||
* Конспект лекций: [[Media:Voron-2013-ptm.pdf|Voron-2013-ptm.pdf, 2.6 МБ]] {{важно|(обновление 16 октября 2013)}}. | * Конспект лекций: [[Media:Voron-2013-ptm.pdf|Voron-2013-ptm.pdf, 2.6 МБ]] {{важно|(обновление 16 октября 2013)}}. | ||
- | * | + | * BigARTM: тематическое моделирование больших текстовых коллекций. [http://www.meetup.com/Moscow-Data-Fest/events/224856462/ Data Fest #1], 12 сентября 2015. '''[[Media:voron-2015-datafest.pdf|(PDF, 6.5 МБ)]]'''. |
- | + | ||
- | + | ||
- | + | ||
{{Stub}} | {{Stub}} | ||
[[Категория:Учебные курсы]] | [[Категория:Учебные курсы]] |
Версия 16:39, 22 декабря 2015
Спецкурс читается студентам 2—5 курсов на кафедре «Математические методы прогнозирования» ВМиК МГУ с 2013 года.
В спецкурсе изучается вероятностное тематическое моделирование (topic modeling) коллекций текстовых документов. Развивается многокритериальный подход к решению некорректно поставленной задачи стохастического матричного разложения — аддитивная регуляризация тематических моделей. Рассматриваются свойства интерпретируемости, устойчивости и полноты тематических моделей, а также способы их измерения. Рассматриваются прикладные задачи классификации и категоризации текстов, информационного поиска, персонализации и рекомендательных систем. Рассматриваются задачи анализа и классификации символьных последовательностей неязыковой природы, в частности, аминокислотных и нуклеотидных последовательностей, дискретизированных биомедицинских сигналов. Предполагается проведение студентами численных экспериментов на модельных и реальных данных.
От студентов требуются знания курсов линейной алгебры, математического анализа, теории вероятностей. Знание математической статистики, методов оптимизации, машинного обучения, языков программирования Python и С++ желательно, но не обязательно.
Условием сдачи спецкурса является выполнение индивидуальных практических заданий.
- Файл с описанием заданий: voron-2016-task-PTM.pdf
Программа курса
Задачи анализа текстов. Вероятностные модели коллекций текстов
Задачи классификации текстов.
- Коллекция текстовых документов. Векторное представление документа.
- Эмпирические законы Ципфа, Ципфа-Мандельброта, Хипса.
- Постановка задачи классификации текстов. Объекты, признаки, классы, обучающая выборка.
- Линейный классификатор. Наивный байесовский классификатор.
- Задача распознавания языка текста.
- Задача распознавание жанра текста. Распознавание научных текстов. Примеры признаков.
- Задача категоризации текстов, сведение к последовательности задач классификации.
- Задача анализа тональности.
Задачи предварительной обработки текстов.
- Очистка: удаление номеров страниц (колонтитулов), переносов, опечаток, оглавлений, таблиц, рисунков, нетекстовой информации.
- Лемматизация и стемминг. Сравнение готовых инструментальных средств.
- Выделение и удаление стоп-слов и редких слов.
Задачи информационного поиска.
- Задача поиска документов по запросу. Инвертированный индекс.
- Меры сходства векторов частот. Косинусная мера сходства. Расстояние Хеллингера.
- Дивергенция Кульбака-Леблера и её свойства. Дивергенция Кресси-Рида.
- Критерий текстовой релевантности TF-IDF. Вероятностная модель и вывод формулы TF-IDF.
- Задача ранжирования. Примеры признаков. Формирование асессорских обучающих выборок.
Униграммная модель документов и коллекции.
- Вероятностное пространство. Гипотезы «мешка слов» и «мешка документов». Текст как простая выборка, порождаемая вероятностным распределением. Векторное представление документа как эмпирическое распределение.
- Понятие параметрической порождающей модели. Принцип максимума правдоподобия.
- Униграммная модель документов и коллекции.
- Ликбез. Теорема Куна-Таккера.
- Аналитическое решение задачи о стационарной точке функции Лагранжа. Частотные оценки условных вероятностей.
Литература: [Маннинг 2011].
Вероятностный латентный семантический анализ
- Напоминания. Коллекция текстовых документов. Векторное представление документа. Задачи информационного поиска и классификации текстов.
Мотивации вероятностного тематического моделирования
- Идея понижения размерности: переход от вектора (терминов) к вектору тем.
- Цели тематического моделирования: разведочный поиск научной информации, навигация и систематизация, агрегирование новостных потоков, классификация и категоризация текстов, обход проблем синонимии и омонимии.
Задача тематического моделирования.
- Вероятностное пространство. Тема как латентная (ненаблюдаемая) переменная. Гипотеза условной независимости. Порождающая модель документа как вероятностной смеси тем.
- Постановка обратной задачи восстановления параметров модели по данным.
Вероятностный латентный семантический анализ (PLSA).
- Принцип максимума правдоподобия, аналитическое решение задачи о стационарной точке функции Лагранжа, формулы M-шага.
- Элементарная интерпретация ЕМ-алгоритма: Е-шаг как формула Байеса для апостериорной вероятности темы, М-шаг как частотные оценки условных вероятностей.
- Рациональный ЕМ-алгоритм (встраивание Е-шага внутрь М-шага).
Онлайновый ЕМ-алгоритм (OEM).
- Проблема больших данных.
- Эвристика разделения М-шага.
- Эвристика разделения коллекции на пачки документов.
- Добавление новых документов (folding-in).
Проведение экспериментов на модельных данных.
- Процесс порождения терминов в документе. Генератор модельных (синтетических) данных. Генерация случайной величины из заданного дискретного распределения.
- Распределение Дирихле. Генерация разреженных и сглаженных векторов дискретных распределений из распределения Дирихле.
- Оценивание точности восстановления модельных данных. Расстояние между дискретными распределениями. Проблема перестановки тем, венгерский алгоритм.
- Проблема неединственности и неустойчивости матричного разложения. Экспериментальное оценивание устойчивости решения.
Задание 1.1 Обязательные пункты: 1–3 и любой из последующих.
- Реализовать генератор модельных данных. Реализовать вычисление эмпирических распределений терминов тем и тем документов.
- Реализовать оценку точности восстановления с учётом перестановки тем. Вычислить оценку точности для исходных модельных распределений.
- Реализовать рациональный ЕМ-алгоритм.
- Исследовать зависимости точности модели и точности восстановления от числа итераций и от числа тем в модели (при фиксированном числе тем в исходных данных). Что происходит, когда тем больше, чем нужно? Меньше, чем нужно?
- Исследовать влияние случайного начального приближения на устойчивость решения. Построить эмпирические распределения и доверительные интервалы для расстояний Хеллингера между истинными матрицами и восстановленными.
- Исследовать влияние разреженности матриц Фи и Тета на устойчивость решения.
- Исследовать полноту решения. Сколько запусков со случайным начальным приближением необходимо сделать, чтобы найти все исходные темы? Как различность и разреженность исходных тем влияет на полноту?
Литература: [Hofmann 1999].
Латентное размещение Дирихле
- Напоминания. Задача тематического моделирования коллекции текстовых документов. Модель PLSA, формулы Е-шага и М-шага.
Латентное размещение Дирихле (LDA)
- Свойства распределения Дирихле.
- Принцип максимума апостериорной вероятности. Модифицированные формулы М-шага.
- Байесовский вывод. Свойство сопряжённости мультиномиального распределения и распределения Дирихле. Другие модифицированные формулы М-шага.
- Обзор модификаций формул М-шага.
- Методы оптимизации гиперпараметров.
- Небайесовская интерпретация модели LDA.
- Сравнение LDA и PLSA. Экспериментальные факты: LDA скорее улучшает оценки редких слов, чем снижает переобучение.
Стохастический ЕМ-алгоритм (SEM).
- Гипотеза разреженности апоcтериорного распределения тем p(t|d,w).
- Эвристика сэмплирования. Алгоритм сэмплирования Гиббса.
Способы формирования начальных приближений.
- Случайная инициализация.
- Инициализация по документам.
- Контекстная документная кластеризация.
- Поиск якорных слов. Алгоритм Ароры.
Задание 1.2 Обязательные пункты: 1 и любой из последующих.
- Реализовать онлайновый алгоритм OEM.
- Исследовать влияние размера первой пачки и последующих пачек на качество модели.
- Исследовать влияние выбора числа итераций на внутреннем и внешнем циклах алгоритма OEM на качество и скорость построения модели.
- Исследовать возможность улучшения качества модели с помощью второго прохода по коллекции (без инициализации p(w|t)).
- Исследовать влияние гиперпараметров на правдоподобие модели и точность восстановления.
Литература: [Hoffman 2010], [Asuncion 2009].
Аддитивная регуляризация тематических моделей
- Напоминания. Вероятностная тематическая модель. Принцип максимума правдоподобия. PLSA. EM-алгоритм.
Многокритериальная регуляризация.
- Некорректность постановки задачи тематического моделирования.
- Аддитивная регуляризация.
- Общая формула M-шага для регуляризованного ЕМ-алгоритма.
Регуляризаторы сглаживания и разреживания.
- Максимизация и минимизация KL-дивергенции.
- Альтернативный вариант разреживания через L0-регуляризацию.
- Связь разреженности и единственности неотрицательного матричного разложения.
- Разреживание предметных тем и сглаживание фоновых тем. Автоматическое выделение стоп-слов.
Робастные тематические модели.
- Робастная модель с фоном и шумом.
- Упрощённая робастная модель.
- Эффект повышения правдоподобия (перплексии) в робастных моделях с шумом.
Регуляризаторы частичного обучения.
- Частичное обучение как выборочное сглаживание.
- Сфокусированные тематические модели. Использование словаря для выделения предметных тем.
- Пример: выделение тематики эпидемий, этнических конфликтов.
Ковариационные регуляризаторы.
- Дековариация тем.
- Тематические модели цитирования.
- Задача выявления корреляций между темами, модель CTM.
- Оценивание параметров (матрицы ковариаций) в модели CTM.
Задание 1.3 Обязательные пункты: 1 и любой из остальных.
- Реализовать разреживание в онлайновом алгоритме OEM.
- Исследовать зависимость правдоподобия модели и точности восстановления от степени разреженности исходных модельных данных.
- Исследовать влияние разреживания на правдоподобие модели и точность восстановления. Проверить гипотезу, что если исходные данные разрежены, то разреживание существенно улучшает точность восстановления и слабо влияет на правдоподобие модели.
- Исследовать влияние частичной разметки на правдоподобие модели и точность восстановления. Проверить гипотезу, что небольшой доли правильно размеченных документов уже достаточно для существенного улучшения правдоподобия и устойчивости модели.
- Исследовать влияние сглаживания на правдоподобие модели и точность восстановления.
Литература: [Воронцов, 2013, 2015], [Chemudugunta, 2006].
Оценивание качества тематических моделей
Реальные данные.
- Текстовые коллекции, библиотеки алгоритмов, источники информации.
- Внутренние и внешние критерии качества.
- Дополнительные данные для построения внешних критериев качества.
Перплексия и правдоподобие.
- Определение и интерпретация перплекcии.
- Перплексия контрольной коллекции. Проблема новых слов в контрольной коллекции.
- Проблема сравнения моделей с разными словарями.
- Относительная перплексия.
Оценивание качества темы.
- Лексическое ядро темы: множество типичных терминов темы.
- Чистота и контрастность темы
- Документное ядро темы: множество типичных документов темы.
- Однородность темы: распределение расстояний между p(w|t) и p(w|t,d).
- Конфликтность темы: близость темы к другим темам.
Статистические тесты условной независимости.
- Методология проверки статистических гипотез. Критерий согласия хи-квадрат Пирсона.
- Проблема разреженности распределения. Эксперименты, показывающие неадекватность асимптотического распределения статистики хи-квадрат.
- Статистики модифицированного хи-квадрат, Кульбака-Лейблера, Хеллингера.
- Обобщённое семейство статистик Кресси-Рида.
- Эмпирическое оценивание квантилей распределения статистики Кресси-Рида.
- Применения теста условной независимости для поиска плохо смоделированных тем, документов, терминов. Поиск тем для расщепления.
Литература: [Newman, 2009–2011].
Внешние оценки качества тематических моделей
Оценивание интерпретируемости тем.
- Экспертное оценивание интерпретируемости.
- Асессорская разметка терминов и документов, релевантных теме.
- Метод интрузий.
- Радикальное улучшение интерпретируемости в n-граммных тематических моделях.
Когерентность.
- Определение когерентности.
- Эксперименты, показывающие связь когерентности и интерпретируемости.
- Способы оценивания совместной встречаемости слов.
Суммаризация темы.
- Проблема визуализации тем.
- Выделение тематичных слов и предложений.
- Кластеризация тематичных предложений.
- Ранжирование тематичных предложений.
- Асессорская разметка предложений, релевантных теме.
Критерии качества классификации и ранжирования.
- Полнота, точность и F-мера в задачах классификации и ранжирования.
- Критерии качества ранжирования: MAP, DCG, NDCG.
- Оценка качества тематического поиска документов по их длинным фрагментам.
Задание 1.4.
- Применить OEM к реальным коллекциям.
- Исследовать на реальных данных зависимость внутренних и внешних критериев качества от эвристических параметров алгоритма обучения OEM.
- В экспериментах на реальных данных построить зависимости перплексии обучающей и контрольной коллекции от числа итераций и числа тем.
Литература:
Определение числа тем и иерархические модели
Литература: .
Синтаксические тематические модели
Энграммные модели.
- Задача выделения терминов как ключевых фраз (словосочетаний). Словари терминов.
- Морфологический анализ текста.
- Синтаксический анализ текста. Выявление подчинительных связей.
- Статистические методы поиска коллокаций. Критерий C-Value.
- Совмещённый статистический критерий TF-IDF & CValue.
- Энграммный онлайновый алгоритм на основе синтаксического анализа и фильтрации терминов путём разреживания.
- Влияние выделения ключевых фраз на качество модели и интерпретируемость тем.
Марковские модели синтаксиса.
- Коллокации
- Оценивание матрицы переходных вероятностей.
Регуляризация для задач классификации
- Напоминания. Аддитивная регуляризация тематических моделей.
Простейшие модели.
- Примеры классов: годы, авторы, категории, и т.д.
- Моделирование классов темами.
- Моделирование классов распределениями тем.
- Автор-тематическая модель.
- Многоклассовые задачи. Частотный регуляризатор.
Тематическая модель классификации.
- Тематическая модель распределения классов документа. Вероятностная интерпретация.
- Тематическая модель цитирования документов.
- Тематическая модель цитирования авторов.
- Тематическая модель категоризации. Ковариационный регуляризатор.
Динамические тематические модели
Модели с дискретным временем.
- Модель с фиксированной тематикой.
- Модель с медленно меняющейся тематикой.
Модели с непрерывным временем.
Иерархические тематические модели
- Задачи категоризации текстов. Стандартный метод решения — сведение к последовательности задач классификации.
Тематическая модель с фиксированной иерархией.
- Вероятностная формализация отношения «тема–подтема». Тождества, связывающие распределения тем и подтем
- Задача построения иерархического тематического профиля документа.
- Задача построения одного уровня иерархии. Аналитическое решение задачи максимизации правдоподобия, формулы M-шага.
- Онлайновый иерархический EM-алгоритм.
- Необходимость частичного обучения для задачи категоризации.
- Необходимость разреживания для построения иерархического тематического профиля документа.
Сетевые иерархические модели.
- Возможность для темы иметь несколько родительских тем.
- Дивергенция Кульбака–Лейблера. Свойства KL-дивергенции.
- Интерпретация KL-дивергенции как степени вложенности распределений. Оценивание силы связей «тема-подтема» KL-дивергенцией.
- Дополнение тематического дерева до тематической сети.
Иерархические процессы Дирихле.
- Оптимизация числа тем в плоской модели.
- Создание новых тем в иерархических моделях.
- Нисходящие и восходящие иерархические модели.
Многоязычные тематические модели
- Параллельные тексты.
- Сопоставимые тексты.
- Регуляризация матрицы переводов слов.
Многомодальные тематические модели
- Коллаборативная фильтрация.
- Модель научной социальной сети.
- Персонализация рекламы в Интернете.
Распараллеливание алгоритмов обучения тематических моделей
- Основы Map-Reduce
- Распределённое хранение коллекции.
Литература
Основная литература
- Vorontsov K. V., Potapenko A. A. Additive Regularization of Topic Models // Machine Learning. Special Issue “Data Analysis and Intelligent Optimization with Applications”: Volume 101, Issue 1 (2015), Pp. 303-323. Русский перевод
- Vorontsov K. V., Frei O. I., Apishev M. A., Romov P. A., Suvorova M. A., Yanina A. O. Non-Bayesian Additive Regularization for Multimodal Topic Modeling of Large Collections // Proceedings of the 2015 Workshop on Topic Models: Post-Processing and Applications, October 19, 2015, Melbourne, Australia. ACM, New York, NY, USA. pp. 29–37.
- Маннинг К., Рагхаван П., Шютце Х. Введение в информационный поиск. — Вильямс, 2011.
- Daud A., Li J., Zhou L., Muhammad F. Knowledge discovery through directed probabilistic topic models: a survey // Frontiers of Computer Science in China.— 2010.— Vol. 4, no. 2. — Pp. 280–301.
- Asuncion A., Welling M., Smyth P., Teh Y. W. On smoothing and inference for topic models // Proceedings of the International Conference on Uncertainty in Artificial Intelligence. — 2009.
Дополнительная литература
- Воронцов К. В., Потапенко А. А. Модификации EM-алгоритма для вероятностного тематического моделирования // Машинное обучение и анализ данных. — 2013. — T. 1, № 6. — С. 657–686.
- Воронцов К. В., Фрей А. И., Ромов П. А., Янина А. О., Суворова М. А., Апишев М. А. BigARTM: библиотека с открытым кодом для тематического моделирования больших текстовых коллекций // Аналитика и управление данными в областях с интенсивным использованием данных. XVII Международная конференция DAMDID/RCDL’2015, Обнинск, 13-16 октября 2015.
- Blei D. M., Ng A. Y., Jordan M. I. Latent Dirichlet allocation // Journal of Machine Learning Research. — 2003. — Vol. 3. — Pp. 993–1022.
- Chemudugunta C., Smyth P., Steyvers M. Modeling general and specific aspects of documents with a probabilistic topic model // Advances in Neural Information Processing Systems. — MIT Press, 2006. — Vol. 19. — Pp. 241–248.
- Dempster A. P., Laird N. M., Rubin D. B. Maximum likelihood from incomplete data via the EM algorithm // J. of the Royal Statistical Society, Series B. — 1977. — no. 34. — Pp. 1–38.
- Hofmann T. Probabilistic latent semantic indexing // Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval. — New York, NY, USA: ACM, 1999. — Pp. 50–57.
- Hoffman M. D., Blei D. M., Bach F. R. Online Learning for Latent Dirichlet Allocation // NIPS, 2010. Pp. 856–864.
- Lu Y., Mei Q., Zhai C. Investigating task performance of probabilistic topic models: an empirical study of PLSA and LDA // Information Retrieval. — 2011. — Vol.14, no.2. — Pp. 178–203.
- Wallach H., Mimno D., McCallum A. Rethinking LDA: Why priors matter // Advances in Neural Information Processing Systems 22 / Ed. by Y. Bengio, D. Schuurmans, J. Lafferty, C. K. I. Williams, A. Culotta. — 2009. — Pp. 1973–1981.
Ссылки
- Тематическое моделирование
- Аддитивная регуляризация тематических моделей
- Коллекции документов для тематического моделирования
- BigARTM
- Конспект лекций: Voron-2013-ptm.pdf, 2.6 МБ (обновление 16 октября 2013).
- BigARTM: тематическое моделирование больших текстовых коллекций. Data Fest #1, 12 сентября 2015. (PDF, 6.5 МБ).