Байесовские методы машинного обучения (курс лекций) / 2018
Материал из MachineLearning.
Курс посвящен т.н. байесовским методам решения различных задач машинного обучения (классификации, восстановления регрессии, уменьшения размерности, разделения смесей, тематического моделирования и др.), которые в настоящее время активно развиваются в мире. Большинство современных научных публикаций по машинному обучению используют вероятностное моделирование, опирающееся на байесовский подход к теории вероятностей. Последний позволяет эффективно учитывать различные предпочтения пользователя при построении решающих правил прогноза. Кроме того, он позволяет решать задачи выбора структурных параметров модели. В частности, здесь удается решать без комбинаторного перебора задачи селекции признаков, выбора числа кластеров в данных, размерности редуцированного пространства при уменьшении размерности, значений коэффициентов регуляризации и пр. В байесовском подходе вероятность интерпретируется как мера незнания, а не как объективная случайность. Простые правила оперирования с вероятностью, такие как формула полной вероятности и формула Байеса, позволяют проводить рассуждения в условиях неопределенности. В этом смысле байесовский подход к теории вероятностей можно рассматривать как обобщение классической булевой логики.
Основной задачей курса является привитие студентам навыков самостоятельного построения сложных вероятностных моделей обработки данных, используя стандартные модели в качестве своеобразных "кирпичиков". Особое внимание уделяется приближенным байесовским методам, позволяющим обсчитывать сложные вероятностные модели. |
Лектор: Д.П. Ветров,
Семинаристы: К. Струминский, Д. Молчанов
Вопросы и комментарии по курсу, а также сдаваемые задания нужно отправлять на почту bayesml@gmail.com. В название письма обязательно добавлять тег [БММО18].
Также у курса есть чат в телеграме. Все объявления по курсу будут вывешиваться именно в чате! Ссылка на него будет разослана студентам на почту групп. Если вам ссылка не пришла, то пишите для ее получения на почту курса.
Содержание |
Домашние задания
Приём заданий по курсу осуществляется в системе anytask.org. Для получения инвайта по курсу просьба писать на почту курса.
Все практические задания и лабораторные сдаются на Python 3.
Код практических заданий должен быть обязательно предварительно сдан в систему ejudge. Формат логина в ejudge должен быть следующий: vmk_ + первая буква имени + фамилия. Пример: vmk_elobacheva. Конфигурация сервера проверки кода в ejudge: python==3.5.3, numpy==1.14.5, scikit-learn==0.19.2, scipy==1.1.0
Примерные даты выдачи домашних заданий (они могут быть изменены!):
- Практическая работа -- 7 сентября, 19 октября
- Лабораторная работа -- 5 октября, 9 ноября, 16 ноября, 30 ноября
- Теоретическое задание -- 21 сентября, 5 октября, 26 октября
Окончательный дедлайн по всем заданиям — TBA. Домашние задания, присланные позднее, к экзамену, скорее всего, проверены не будут.
Экзамен
Экзамен пройдет 23 января в 13:00.
При подготовке ответа на экзамене разрешается пользоваться любыми материалами. При непосредственном ответе ничем пользоваться нельзя. Просьба обратить внимание на теоретический минимум по курсу — незнание ответов на вопросы теор. минимума автоматически влечёт неудовлетворительную оценку за экзамен. На экзамене дается час на подготовку ответа на билет, после чего вы отвечаете экзаменатору на вопросы из теоретического минимума, рассказываете билет, отвечаете на дополнительные вопросы по курсу и решаете задачи.
Расписание занятий
В 2018 году курс читается на факультете ВМиК МГУ по пятницам в ауд. 607, начало в 14-35 (лекция) и 16-20 (семинар).
Дата | № занятия | Занятие | Материалы |
---|---|---|---|
7 сентября 2018 | 1 | Лекция «Байесовский подход к теории вероятностей. Примеры байесовских рассуждений.» | Конспект Саммари Презентация |
Семинар «Байесовские рассуждения. Выдача практического задания №1» | Задачи Конспект | ||
21 сентября 2018 | 2 | Лекция «Сопряжённые распределения, аналитический байесовский вывод, экспоненциальный класс распределений» | Конспект |
Семинар «Сопряжённые распределения» | Задачи Конспект | ||
28 сентября 2018 | 3 | Лекция «Байесовский выбор модели» | Презентация Конспект |
Семинар «Подсчёт обоснованности моделей» | Задачи Формулы Конспект | ||
5 октября 2018 | 4 | Лекция «Метод релевантных векторов для задачи регрессии» | Презентация Конспект |
Семинар «Матричные вычисления» | Задачи с семинара Задачи доп 1 Задачи доп 2, | ||
12 октября 2018 | 5 | Лекция «Метод релевантных векторов для задачи классификации» | Саммари Конспект, |
Семинар «Метод релевантных векторов» | Задачи КонспектПрезентация Доказательство тождества Вудбери Доказательство тождества об определителе | ||
19 октября 2018 | 6 | Лекция «EM-алгоритм. Байесовский метод главных компонент» | Саммари Конспект |
Семинар «ЕМ-алгоритм» | Задачи Конспект | ||
26 октября 2018 | 7 | Лекция «Вариационный вывод» | Саммари 1 Саммари 2 Конспект |
Семинар «Вариационный вывод» | Задачи Конспект | ||
2 ноября 2018 | 8 | Лекция «Методы Монте-Карло по схеме марковский цепей (MCMC)» | Саммари |
Семинар «Методы MCMC» | Задачи | ||
9 ноября 2018 | 9 | Лекция «Гибридный метод Монте-Карло и его масштабируемые модиификации» | Hamiltonian dynamics Langevin Dynamics |
Семинар «Гибридный метод Монте-Карло» | Задачи | ||
16 ноября 2018 | 10 | Лекция «Гауссовские процессы для регрессии и классификации» | материалы лекции изложены в разделе 6.4 Бишопа |
Семинар «Гауссовские процессы для регрессии и классификации» | Задачи Конспект | ||
23 ноября 2018 | 11 | Лекция «Непараметрические байесовские методы. Процессы Дирихле» | Саммари |
Семинар «Свойства распределения Дирихле» | Задачи Конспект | ||
30 ноября 2018 | 12 | Лекция «Латентное размещение Дирихле (LDA)» | Саммари |
Семинар «Модификации LDA» | Конспект Статья по HDP |
Замечание: рукописные конспекты лекций и семинаров это в первую очередь заметки лектора и семинаристов, а не материалы по курсу. В них могут содержать неточности!
Система выставления оценок по курсу
- В рамках курса предполагается выполнение двух практических заданий, четырех лабораторных работ и трёх теоретических заданий.
- Задания выполняются самостоятельно. Если задание выполнялось сообща, или использовались какие-либо сторонние коды и материалы, то об этом должно быть написано в отчете. В противном случае „похожие“ решения считаются плагиатом и все задействованные студенты (в том числе те, у кого списали) будут сурово наказаны.
- Практические задания оцениваются из 10 баллов. За сдачу заданий позже срока начисляется штраф в размере 0.3 балла за каждый день просрочки, но суммарно не более 6-и баллов.
- Домашние задания и лабораторные работы оцениваются из 10 баллов. За сдачу заданий позже срока начисляется штраф в размере 0.3 балла за каждый день просрочки. Задания не принимаются спустя неделю после срока.
- Для получения оценки «удовлетворительно» необходимо сдать одно практическое задание, одно теоретическое задание и две лабораторных работы.
- Необходимым условием получения положительной оценки за курс является сдача устного экзамена не менее чем на оценку «удовлетворительно».
- Итоговая оценка вычисляется по формуле , где E — оценка за устный экзамен, P — средний балл, набранный за практические задания, T -- средний балл, набранный за теоретические задания, L -- средний балл, набранный за лабораторные работы, Mark — итоговая оценка по 10-балльной шкале. Оценке 5 в пятибальной шкале соответствует оценка 8 и выше, оценке 4 -- оценка [6, 8), оценке 3 -- промежуток [4, 6).
- На экзамене студент может отказаться от оценки и пойти на пересдачу, на которой может заново получить оценку E.
- Если на экзамене итоговая оценка оказывается ниже 4 баллов, студент отправляется на пересдачу. При этом оценка E, полученная на пересдаче, добавляется к положительной (три и выше) оценке E, полученной на основном экзамене и т.д. до тех пор, пока студент не наберет на итоговую оценку «удовлетворительно» (для итоговых оценок выше «удовлетворительно» оценки E не суммируются).
- Студент может досдать недостающие практические задания в любое время. При этом проверка задания гарантируется только в том случае, если задание сдано не позднее, чем за неделю до основного экзамена или пересдачи.
- В случае успешной сдачи всех практических заданий студент получает возможность претендовать на итоговую оценку «хорошо» и «отлично». При этом экзамен на оценку E может сдаваться до сдачи всех заданий (оценки E в этом случае не суммируются).
- Экзамен на оценку E сдается либо в срок основного экзамена, либо в срок официальных пересдач.
Литература
- Barber D. Bayesian Reasoning and Machine Learning. Cambridge University Press, 2012.
- Набор полезных фактов для матричных вычислений
- Простые и удобные заметки по матричным вычислениям и свойствам гауссовских распределений
- Памятка по теории вероятностей
- Ветров Д.П., Кропотов Д.А. Байесовские методы машинного обучения, учебное пособие по спецкурсу, 2007 (Часть 1, PDF 1.22МБ; Часть 2, PDF 1.58МБ)
- Bishop C.M. Pattern Recognition and Machine Learning. Springer, 2006.
- Mackay D.J.C. Information Theory, Inference, and Learning Algorithms. Cambridge University Press, 2003.
- Tipping M. Sparse Bayesian Learning. Journal of Machine Learning Research, 1, 2001, pp. 211-244.
- Шумский С.А. Байесова регуляризация обучения. В сб. Лекции по нейроинформатике, часть 2, 2002.
Страницы курса прошлых лет
2010 год
2011 год
весна 2013 года
осень 2013 года
2014 год
2015 год
2016 год
2017 год