Байесовские методы машинного обучения (курс лекций) / 2017

Материал из MachineLearning.

Версия от 12:00, 5 декабря 2017; Кирилл Струминский (Обсуждение | вклад)

(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)

Курс посвящен т.н. байесовским методам решения различных задач машинного обучения (классификации, восстановления регрессии, уменьшения размерности, разделения смесей, тематического моделирования и др.), которые в настоящее время активно развиваются в мире. Большинство современных научных публикаций по машинному обучению используют вероятностное моделирование, опирающееся на байесовский подход к теории вероятностей. Последний позволяет эффективно учитывать различные предпочтения пользователя при построении решающих правил прогноза. Кроме того, он позволяет решать задачи выбора структурных параметров модели. В частности, здесь удается решать без комбинаторного перебора задачи селекции признаков, выбора числа кластеров в данных, размерности редуцированного пространства при уменьшении размерности, значений коэффициентов регуляризации и пр. В байесовском подходе вероятность интерпретируется как мера незнания, а не как объективная случайность. Простые правила оперирования с вероятностью, такие как формула полной вероятности и формула Байеса, позволяют проводить рассуждения в условиях неопределенности. В этом смысле байесовский подход к теории вероятностей можно рассматривать как обобщение классической булевой логики.

Основной задачей курса является привитие студентам навыков самостоятельного построения сложных вероятностных моделей обработки данных, используя стандартные модели в качестве своеобразных "кирпичиков". Особое внимание уделяется приближенным байесовским методам, позволяющим обсчитывать сложные вероятностные модели.

Лектор: Д.П. Ветров,

Семинаристы: К. Струминский, Т. Гарипов

Вопросы и комментарии по курсу, а также сдаваемые задания нужно отправлять на почту bayesml@gmail.com. В название письма обязательно добавлять тег [БММО17].

Домашние задания

Приём заданий по курсу осуществляется в системе anytask.org. Для получения инвайта по курсу просьба писать на почту курса.

Все практические задания и лабораторные сдаются на Python 3.

Экзамен

На экзамене при подготовке билета разрешается пользоваться любыми материалами. При непосредственном ответе ничем пользоваться нельзя. Просьба обратить внимание на теоретический минимум по курсу — незнание ответов на вопросы теоретического минимума автоматически влечёт неудовлетворительную оценку за экзамен. О дате проведения экзамена будет сообщено позднее.

Вопросы к экзамену

Расписание занятий

В 2017 году курс читается на факультете ВМиК МГУ по пятницам в ауд. 607, начало в 14-35 (лекция) и 16-20 (семинар).

Дата	№ занятия	Занятие	Материалы
8 сентября 2017	1	Лекция «Байесовский подход к теории вероятностей. Примеры байесовских рассуждений.»	Конспект (pdf) Презентация (pdf)
8 сентября 2017	1	Семинар «Байесовские рассуждения. Выдача практического задания №1»	Задачи (pdf)
15 сентября 2017	2	Лекция «Сопряжённые распределения, аналитический байесовский вывод, экспоненциальный класс распределений»
15 сентября 2017	2	Семинар «Сопряжённые распределения»	Задачи (pdf)
22 сентября 2017	3	Лекция «Байесовский выбор модели»	Презентация (pdf)
22 сентября 2017	3	Семинар «Подсчёт обоснованности моделей»	Задачи (pdf) Формулы (pdf)
29 сентября 2017	4	Лекция «Метод релевантных векторов для задачи регрессии»	Презентация (pdf)
29 сентября 2017	4	Семинар «Матричные вычисления»	Задачи на семинаре с разбором(pdf)
6 октября 2017	5	Лекция «Метод релевантных векторов для задачи классификации»	Конспект (pdf)
6 октября 2017	5	Семинар «Метод релевантных векторов»	Задачи Презентация Доказательство тождества Вудбери Доказательство тождества об определителе
13 октября 2017	6	Лекция «EM-алгоритм. Байесовский метод главных компонент»	Конспект (pdf)
13 октября 2017	6	Семинар «ЕМ-алгоритм»	Задачи Презентация
27 октября 2017	7	Лекция «Вариационный вывод»	Конспект лекции (pdf) Конспект (pdf)
27 октября 2017	7	Семинар «Вариационный вывод»	Задачи (pdf)
3 ноября 2017	8	Лекция «Методы Монте-Карло по схеме марковский цепей (MCMC)»	Конспект (pdf)
3 ноября 2017	8	Семинар «Методы MCMC»	Конспект (pdf)
10 ноября 2017	9	Лекция «Гибридный метод Монте-Карло и его масштабируемые модиификации»
10 ноября 2017	9	Семинар «Гибридный метод Монте-Карло»	Задачи (pdf)
17 ноября 2017	10	Лекция «Гауссовские процессы для регрессии и классификации»
17 ноября 2017	10	Семинар «Гауссовские процессы для регрессии и классификации»	Презентация Задачи
24 ноября 2017	11	Лекция «Непараметрические байесовские методы. Процессы Дирихле»	Конспект (pdf)
24 ноября 2017	11	Семинар «Свойства распределения Дирихле»	Конспект (pdf)
1 декабря 2017	12	Лекция «Латентное размещение Дирихле (LDA)»	Конспект (pdf)
1 декабря 2017	12	Семинар «Модификации LDA»	Статья по HDP

Система выставления оценок по курсу

В рамках курса предполагается выполнение двух практических заданий, четырех лабораторных работ и трёх теоретических заданий.
Задания выполняются самостоятельно. Если задание выполнялось сообща, или использовались какие-либо сторонние коды и материалы, то об этом должно быть написано в отчете. В противном случае „похожие“ решения считаются плагиатом и все задействованные студенты (в том числе те, у кого списали) будут сурово наказаны.
Практические задания оцениваются из 10 баллов. За сдачу заданий позже срока начисляется штраф в размере 0.3 балла за каждый день просрочки, но суммарно не более 6-и баллов.
Домашние задания и лабораторные работы оцениваются из 10 баллов. За сдачу заданий позже срока начисляется штраф в размере 0.3 балла за каждый день просрочки. Задания не принимаются спустя неделю после срока.
Для получения оценки «удовлетворительно» необходимо сдать одно практическое задание, одно теоретическое задание и две лабораторных работы.
Необходимым условием получения положительной оценки за курс является сдача устного экзамена не менее чем на оценку «удовлетворительно».
Итоговая оценка вычисляется по формуле $Mark = \frac{3}{10} E + \frac{7}{10} \left[ \frac{3}{7} P + \frac{4}{7}(\frac{3}{7} T + \frac{4}{7} L) \right]$ , где E — оценка за устный экзамен, P — средний балл, набранный за практические задания, T -- средний балл, набранный за теоретические задания, L -- средний балл, набранный за лабораторные работы, Mark — итоговая оценка по 10-балльной шкале. Оценке 5 в пятибальной шкале соответствует оценка 8 и выше, оценке 4 -- оценка [6, 8), оценке 3 -- промежуток [4, 6).
На экзамене студент может отказаться от оценки и пойти на пересдачу, на которой может заново получить оценку E.
Если на экзамене итоговая оценка оказывается ниже 4 баллов, студент отправляется на пересдачу. При этом оценка E, полученная на пересдаче, добавляется к положительной (три и выше) оценке E, полученной на основном экзамене и т.д. до тех пор, пока студент не наберет на итоговую оценку «удовлетворительно» (для итоговых оценок выше «удовлетворительно» оценки E не суммируются).
Студент может досдать недостающие практические задания в любое время. При этом проверка задания гарантируется только в том случае, если задание сдано не позднее, чем за неделю до основного экзамена или пересдачи.
В случае успешной сдачи всех практических заданий студент получает возможность претендовать на итоговую оценку «хорошо» и «отлично». При этом экзамен на оценку E может сдаваться до сдачи всех заданий (оценки E в этом случае не суммируются).
Экзамен на оценку E сдается либо в срок основного экзамена, либо в срок официальных пересдач.