Байесовские методы машинного обучения (курс лекций) / 2018
Материал из MachineLearning.
Курс посвящен т.н. байесовским методам решения различных задач машинного обучения (классификации, восстановления регрессии, уменьшения размерности, разделения смесей, тематического моделирования и др.), которые в настоящее время активно развиваются в мире. Большинство современных научных публикаций по машинному обучению используют вероятностное моделирование, опирающееся на байесовский подход к теории вероятностей. Последний позволяет эффективно учитывать различные предпочтения пользователя при построении решающих правил прогноза. Кроме того, он позволяет решать задачи выбора структурных параметров модели. В частности, здесь удается решать без комбинаторного перебора задачи селекции признаков, выбора числа кластеров в данных, размерности редуцированного пространства при уменьшении размерности, значений коэффициентов регуляризации и пр. В байесовском подходе вероятность интерпретируется как мера незнания, а не как объективная случайность. Простые правила оперирования с вероятностью, такие как формула полной вероятности и формула Байеса, позволяют проводить рассуждения в условиях неопределенности. В этом смысле байесовский подход к теории вероятностей можно рассматривать как обобщение классической булевой логики.
Основной задачей курса является привитие студентам навыков самостоятельного построения сложных вероятностных моделей обработки данных, используя стандартные модели в качестве своеобразных "кирпичиков". Особое внимание уделяется приближенным байесовским методам, позволяющим обсчитывать сложные вероятностные модели. |
Лектор: Д.П. Ветров,
Семинаристы: К. Струминский, Д. Молчанов
Вопросы и комментарии по курсу, а также сдаваемые задания нужно отправлять на почту bayesml@gmail.com. В название письма обязательно добавлять тег [БММО18].
Также у курса есть чат в телеграме. Все объявления по курсу будут вывешиваться именно в чате! Ссылка на него будет разослана студентам на почту групп. Если вам ссылка не пришла, то пишите для ее получения на почту курса.
Содержание |
Домашние задания
Приём заданий по курсу осуществляется в системе anytask.org. Для получения инвайта по курсу просьба писать на почту курса.
Все практические задания и лабораторные сдаются на Python 3.
Код практических заданий должен быть обязательно предварительно сдан в систему ejudge. Формат логина в ejudge должен быть следующий: vmk_ + первая буква имени + фамилия. Пример: vmk_elobacheva. Конфигурация сервера проверки кода в ejudge: python==3.5.3, numpy==1.14.5, scikit-learn==0.19.2, scipy==1.1.0
Примерные даты выдачи домашних заданий (они могут быть изменены!):
- Практическая работа -- 7 сентября, 19 октября
- Лабораторная работа -- 5 октября, 9 ноября, 16 ноября, 30 ноября
- Теоретическое задание -- 21 сентября, 5 октября, 26 октября
Расписание занятий
В 2018 году курс читается на факультете ВМиК МГУ по пятницам в ауд. 607, начало в 14-35 (лекция) и 16-20 (семинар).
Дата | № занятия | Занятие | Материалы |
---|---|---|---|
7 сентября 2018 | 1 | Лекция «Байесовский подход к теории вероятностей. Примеры байесовских рассуждений.» | Конспект Саммари Презентация |
Семинар «Байесовские рассуждения. Выдача практического задания №1» | Задачи Конспект | ||
21 сентября 2018 | 2 | Лекция «Сопряжённые распределения, аналитический байесовский вывод, экспоненциальный класс распределений» | Конспект |
Семинар «Сопряжённые распределения» | Задачи Конспект | ||
28 сентября 2018 | 3 | Лекция «Байесовский выбор модели» | Презентация Конспект |
Семинар «Подсчёт обоснованности моделей» | Задачи Формулы Конспект | ||
5 октября 2018 | 4 | Лекция «Метод релевантных векторов для задачи регрессии» | Презентация Конспект |
Семинар «Матричные вычисления» | Задачи с семинара Задачи доп 1 Задачи доп 2, | ||
12 октября 2018 | 5 | Лекция «Метод релевантных векторов для задачи классификации» | Саммари Конспект, |
Семинар «Метод релевантных векторов» | Задачи Презентация Доказательство тождества Вудбери Доказательство тождества об определителе | ||
19 октября 2018 | 6 | Лекция «EM-алгоритм. Байесовский метод главных компонент» | Конспект (pdf) |
Семинар «ЕМ-алгоритм» | Задачи Презентация | ||
26 октября 2018 | 7 | Лекция «Вариационный вывод» | Конспект лекции (pdf) Конспект (pdf) |
Семинар «Вариационный вывод» | Задачи (pdf) | ||
2 ноября 2018 | 8 | Лекция «Методы Монте-Карло по схеме марковский цепей (MCMC)» | Конспект (pdf) |
Семинар «Методы MCMC» | Конспект (pdf) | ||
9 ноября 2018 | 9 | Лекция «Гибридный метод Монте-Карло и его масштабируемые модиификации» | |
Семинар «Гибридный метод Монте-Карло» | Задачи (pdf) | ||
16 ноября 2018 | 10 | Лекция «Гауссовские процессы для регрессии и классификации» | |
Семинар «Гауссовские процессы для регрессии и классификации» | Презентация Задачи | ||
23 ноября 2018 | 11 | Лекция «Непараметрические байесовские методы. Процессы Дирихле» | Конспект (pdf) |
Семинар «Свойства распределения Дирихле» | Конспект (pdf) | ||
30 ноября 2018 | 12 | Лекция «Латентное размещение Дирихле (LDA)» | Конспект (pdf) |
Семинар «Модификации LDA» | Статья по HDP |
Замечание: рукописные конспекты лекций и семинаров это в первую очередь заметки лектора и семинаристов, а не материалы по курсу. В них могут содержать неточности!
Система выставления оценок по курсу
- В рамках курса предполагается выполнение двух практических заданий, четырех лабораторных работ и трёх теоретических заданий.
- Задания выполняются самостоятельно. Если задание выполнялось сообща, или использовались какие-либо сторонние коды и материалы, то об этом должно быть написано в отчете. В противном случае „похожие“ решения считаются плагиатом и все задействованные студенты (в том числе те, у кого списали) будут сурово наказаны.
- Практические задания оцениваются из 10 баллов. За сдачу заданий позже срока начисляется штраф в размере 0.3 балла за каждый день просрочки, но суммарно не более 6-и баллов.
- Домашние задания и лабораторные работы оцениваются из 10 баллов. За сдачу заданий позже срока начисляется штраф в размере 0.3 балла за каждый день просрочки. Задания не принимаются спустя неделю после срока.
- Для получения оценки «удовлетворительно» необходимо сдать одно практическое задание, одно теоретическое задание и две лабораторных работы.
- Необходимым условием получения положительной оценки за курс является сдача устного экзамена не менее чем на оценку «удовлетворительно».
- Итоговая оценка вычисляется по формуле , где E — оценка за устный экзамен, P — средний балл, набранный за практические задания, T -- средний балл, набранный за теоретические задания, L -- средний балл, набранный за лабораторные работы, Mark — итоговая оценка по 10-балльной шкале. Оценке 5 в пятибальной шкале соответствует оценка 8 и выше, оценке 4 -- оценка [6, 8), оценке 3 -- промежуток [4, 6).
- На экзамене студент может отказаться от оценки и пойти на пересдачу, на которой может заново получить оценку E.
- Если на экзамене итоговая оценка оказывается ниже 4 баллов, студент отправляется на пересдачу. При этом оценка E, полученная на пересдаче, добавляется к положительной (три и выше) оценке E, полученной на основном экзамене и т.д. до тех пор, пока студент не наберет на итоговую оценку «удовлетворительно» (для итоговых оценок выше «удовлетворительно» оценки E не суммируются).
- Студент может досдать недостающие практические задания в любое время. При этом проверка задания гарантируется только в том случае, если задание сдано не позднее, чем за неделю до основного экзамена или пересдачи.
- В случае успешной сдачи всех практических заданий студент получает возможность претендовать на итоговую оценку «хорошо» и «отлично». При этом экзамен на оценку E может сдаваться до сдачи всех заданий (оценки E в этом случае не суммируются).
- Экзамен на оценку E сдается либо в срок основного экзамена, либо в срок официальных пересдач.
Литература
- Barber D. Bayesian Reasoning and Machine Learning. Cambridge University Press, 2012.
- Набор полезных фактов для матричных вычислений
- Простые и удобные заметки по матричным вычислениям и свойствам гауссовских распределений
- Памятка по теории вероятностей
- Ветров Д.П., Кропотов Д.А. Байесовские методы машинного обучения, учебное пособие по спецкурсу, 2007 (Часть 1, PDF 1.22МБ; Часть 2, PDF 1.58МБ)
- Bishop C.M. Pattern Recognition and Machine Learning. Springer, 2006.
- Mackay D.J.C. Information Theory, Inference, and Learning Algorithms. Cambridge University Press, 2003.
- Tipping M. Sparse Bayesian Learning. Journal of Machine Learning Research, 1, 2001, pp. 211-244.
- Шумский С.А. Байесова регуляризация обучения. В сб. Лекции по нейроинформатике, часть 2, 2002.
Страницы курса прошлых лет
2010 год
2011 год
весна 2013 года
осень 2013 года
2014 год
2015 год
2016 год
2017 год