Байесовские методы машинного обучения (курс лекций, Д.П. Ветров, Д.А. Кропотов)

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Добавлена пробная презентация для скачивания)
м
Строка 1: Строка 1:
-
{{TOCright}}
+
__NOTOC__
 +
 
 +
{{UnderConstruction|[[Участник:Kropotov|Kropotov]] 15:31, 11 сентября 2009 (MSD)}}
Курс посвящен т.н. байесовским методам машинного обучения (классификации, прогнозирования, восстановления регрессии), которые в настоящее время активно развиваются в мире. Байесовский подход к теории вероятностей является альтернативой классическому частотному подходу. Здесь вероятность интерпретируется как мера незнания, а не как объективная случайность. Простые правила оперирования с вероятностью, такие как формула полной вероятности и формула Байеса, позволяют проводить рассуждения в условиях неопределенности. В этом смысле байесовский подход к теории вероятностей можно рассматривать как обобщение классической булевой логики.
Курс посвящен т.н. байесовским методам машинного обучения (классификации, прогнозирования, восстановления регрессии), которые в настоящее время активно развиваются в мире. Байесовский подход к теории вероятностей является альтернативой классическому частотному подходу. Здесь вероятность интерпретируется как мера незнания, а не как объективная случайность. Простые правила оперирования с вероятностью, такие как формула полной вероятности и формула Байеса, позволяют проводить рассуждения в условиях неопределенности. В этом смысле байесовский подход к теории вероятностей можно рассматривать как обобщение классической булевой логики.

Версия 11:31, 11 сентября 2009


Статья в настоящий момент дорабатывается.
Kropotov 15:31, 11 сентября 2009 (MSD)


Курс посвящен т.н. байесовским методам машинного обучения (классификации, прогнозирования, восстановления регрессии), которые в настоящее время активно развиваются в мире. Байесовский подход к теории вероятностей является альтернативой классическому частотному подходу. Здесь вероятность интерпретируется как мера незнания, а не как объективная случайность. Простые правила оперирования с вероятностью, такие как формула полной вероятности и формула Байеса, позволяют проводить рассуждения в условиях неопределенности. В этом смысле байесовский подход к теории вероятностей можно рассматривать как обобщение классической булевой логики.

Цели курса:

  • Ознакомление с классическими методами обработки данных, особенностями их применения на практике и их недостатками
  • Представление современных проблем теории машинного обучения
  • Введение в байесовские методы машинного обучения
  • Изложение последних достижений в области практического использования байесовских методов
  • Напоминание основных результатов из смежных дисциплин (теория кодирования, анализ, матричные вычисления, статистика, линейная алгебра, теория вероятностей, случайные процессы)

Курс читается студентам ВМиК МГУ, начиная с 2007 года. Курс не требует от студентов дополнительной математической подготовки, выходящей за пределы первых двух курсов университетского образования, все необходимые понятия вводятся в ходе лекций. В ходе чтения курса студенты будут ознакомлены с передним краем научных исследований в теории машинного обучения и существующими проблемами.

Программа курса

Различные постановки задачи машинного обучения

Обзор задач анализа данных: классификация, регрессия, кластеризация, идентификация, прогнозирование. Примеры. Историческая справка. Основные проблемы теории распознавания образов: переобучение, противоречивость информации, малый объем выборки. Иллюстративные примеры переобучения, связь переобучения и объема выборки.

Ликбез: основные понятия теории вероятностей (математическое ожидание, дисперсия, ковариационная матрица, плотность вероятности, функция правдоподобия)

Презентация (PDF, 555 КБ)

Вероятностная постановка задачи распознавания образов. Байесовский классификатор. Методы восстановления плотностей. ЕМ-алгоритм.

Формальные обозначения, генеральная совокупность, критерии качества обучения как точности на генеральной совокупности. Вывод выражения для идеального классификатора. Парзеновские окна и восстановление плотностей по ближайшим соседям. ЕМ-алгоритм как способ разделения смесей нормальных распределений.

Ликбез: нормальное распределение.

Методы линейной и логистической регрессии и обобщенные линейные модели. Регуляризация обучения.

Метод максимального правдоподобия. Способы введения функции правдоподобия для задачи регрессии и классификации. Выражение для коэффициентов линейной регрессии, хэт-матрица. Метод наименьших квадратов с итеративно-перевзвешивающимися весами. Необходимость ридж-оценивания для избежания вырожденности гессиана.

Ликбез: псевдообращение матриц и нормальное псевдорешение.

Задача выбора модели на примере выбора коэффициента регуляризации, ядровой функции, настройки структурных параметров алгоритма обучения. Основные методы выбора модели.

Общая постановка проблемы выбора модели, ее философский характер. Конкретные примеры структурных параметров. Кросс-валидация. Теория Вапника-Червоненкиса, емкость алгоритмов обучения. Принцип минимальной длины описания, его эквивалентность максимуму регуляризованного правдоподобия. Информационные критерии Акаике и Байеса-Шварца, область их применения.

Ликбез: теорема Шеннона и оптимальная длина описания.

Байесовский подход к теории вероятностей. Примеры байесовских рассуждений.

Частотный и вероятностный подходы к теории вероятностей. Интерпретация вероятности как меры нашего незнания, сравнение байесовских рассуждений с логическими. Пример жизненной ситуации "Джон и колокольчик для воров". Вывод формул для апостериорных вероятностей.

Ликбез: условная вероятность, формула Байеса и ее применение, формула полной вероятности.

Решение задачи выбора модели по Байесу. Обоснованность модели. Полный байесовский вывод.

Вывод формул для принятия решения. Принцип наибольшей обоснованности как метод максимального правдоподобия для моделей. Половинчатость данного подхода, полный вывод по Байесу. Интерпретация понятия обоснованности, ее геометрический смысл, бессмысленность сколь-угодно гибкого решающего правила, иллюстративные примеры, связь с принципом Оккама.

Ликбез: принцип Оккама, ad hoc гипотезы.

Применение принципа наибольшей обоснованности на примере метода релевантных векторов

Метод релевантных векторов, вывод формул для регрессии. Приближение Лапласа для оценки обоснованности в случае задачи классификации, его достоинства и недостатки. Свойства решающего правила RVM.

Ликбез: матричные тождества обращения, тождество Вудбери.

Недиагональная регуляризация обобщенных линейных моделей. Гауссовское и Лапласовское априорные распределения.

Свойства гауссовского и лапласовского регуляризаторов, трудности использования последнего в методе релевантных векторов. Метод релевантных собственных векторов, идея диагонализации правдоподобия. Вывод формул для оценки обоснованности.

Ликбез: Неотрицательно определенные матрицы. Лапласовское распределение.

Способы оценки обоснованности: Вариационный метод, методы Монте-Карло.

Взятие интегралов методами Монте-Карло, голосование по апостериорному распределению вместо точечной оценки. Схема Гиббса. Гибридные методы Монте-Карло. Приближение обоснованности гауссианой. Идея вариационного подхода, вывод формул для линейной регрессии.

Ликбез: дивергенция Кульбака-Лейблера, гамма-распределение.

Графические модели. Гауссовские процессы в машинном обучении.

Иерархические байесовские модели. Ориентированные и неориентированные модели. Элементарные графы. Гауссовские процессы в задачах регрессии и классификации. Выбор наиболее адекватной ковариационной функции.

Ликбез: условная независимость, случайные процессы.

Непрерывное обобщение информационного критерия Акаике и его применение в задаче отбора признаков для линейной регрессии.

Классический критерий Акаике и трудности его использования на практике. Обобщение критерия Акаике на непрерывный случай. Алгоритм автоматического определения значимости на основе непрерывного критерия Акаике.

Ликбез: свойства оценок максимального правдоподобия, информационная матрица Фишера, формула блочного обращения.

Общее решение для недиагональной квадратичной регуляризации

Получение выражений для обоснованности и непрерывного критерия Акаике в явном виде в семействе произвольных симметричных неотрицательно определенных матриц регуляризации. Доказательство эквивалентности оптимальных матриц регуляризации в рамках обоих подходов.

Ликбез: Дифференцирование по матрице и по вектору.

Расписание занятий

В 2009 году курс проходит по четвергам на факультете ВМиК МГУ, в ауд. 777, начало в 16-20.

ДатаЗанятие
10 сентябряЛекция 1
17 сентябряЛекция 2
1 октябряЛекция 3
8 октябряЛекция 4
22 октябряЛекция 5
29 октябряЛекция 6
5 ноябряЛекция 7
12 ноябряЛекция 8
19 ноябряЛекция 9
26 ноябряЛекция 10
3 декабряЛекция 11
10 декабряЛекция 12
17 декабряЭкзамен

Литература

  1. Bishop C.M. Pattern Recognition and Machine Learning. Springer, 2006.
  2. Mackay D.J.C. Information Theory, Inference, and Learning Algorithms. Cambridge University Press, 2003.
  3. Tipping M. Sparse Bayesian Learning. Journal of Machine Learning Research, 1, 2001, pp. 211-244.
  4. Шумский С.А. Байесова регуляризация обучения. В сб. Лекции по нейроинформатике, часть 2, 2002.
  5. Ветров Д.П., Кропотов Д.А. Алгоритмы выбора моделей и синтеза коллективных решений в задачах классификации, основанные на принципе устойчивости. — М.: УРСС, 2006.
  6. Kropotov D., Vetrov D. On One Method of Non-Diagonal Regularization in Sparse Bayesian Learning. Proc. of 24th International Conference on Machine Learning (ICML'2007).
  7. Kropotov D., Vetrov D. On Equivalence of Information-Based and Bayesian Approaches to Model Selection for Linear Regression Problems. Proc. of 9th International Conference "Pattern Recognition and Image Analysis: New Information Technologies" (PRIA-9-2008).


Личные инструменты