Обучение с подкреплением (курс лекций) / 2023

Материал из MachineLearning.

Перейти к: навигация, поиск

В отличие от классического машинного обучения, в обучении с подкреплением алгоритму на вход не поступает обучающая выборка. Вместо этого, обучение проводится <<методом проб и ошибок>>: агент должен сам собрать данные в ходе взаимодействия с окружающим миром (средой) и на основе собранного опыта научиться максимизировать получаемый отклик - подкрепление, или награду. Курс направлен на изучение алгоритмов последних лет, показывающих state-of-the-art результаты во многих задачах дискретного и непрерывного управления за счёт совмещения классической теории с парадигмой глубинного обучения.

Читается для магистров 617-й, 522-й и 622-й групп.

Преподаватели: Кропотов Дмитрий, Темирчев Павел, Илья Синильщиков, Алексей Медведев, Дмитрий Медведев, Владимир Ипполитов, Миньчуань Сюй.

Расписание: Занятия проводятся в смешанном онлайн/офлайн формате. Распределение см. в расписании занятий ниже.

  • лекции: по пятницам в 14-35, ауд. ??
  • семинары: по пятницам в 16:20, ауд. ??

Канал в Telegram: ссылка

Видеозаписи занятий: TBA

Содержание

Критерии оценки

В курсе предусмотрено шесть лабораторных работ в формате ноутбуков и письменный экзамен. Итоговая оценка по курсу в 10-балльной шкале рассчитывается по формуле:

Итоговая оценка = Округл.вверх (0.3 * Экз + 0.7 * Лаб)

Оценке 5 в пятибалльной шкале соответствует оценка 8 и выше, оценке 4 - оценка [6, 8), оценке 3 - промежуток [4, 6). Помимо баллов необходимо также выполнить следующие условия:

Итог Необходимые условия
5 сдано не менее 5 заданий, оценка за экзамен >= 6
4 сдано не менее 4 заданий, оценка за экзамен >= 4
3 сдано не менее 3 заданий, оценка за экзамен >= 4

Домашние задания

Максимальный балл за лабораторные - 100 баллов; итоговая оценка за лабораторные получается делением на десять. За некоторые задания можно будет получить бонусные баллы, о чем будет объявляться при выдаче задания.

Сдавать лабораторные можно в течение недели после мягкого дедлайна (работы сданные в этот период облагаются штрафом: см. таблицу ниже). Лабораторные, сданные позже недели после мягкого дедлайна, не приносят баллов, но учитываются в необходимых условиях для конкретной оценки (см. выше).

Лабораторная Ориентировочная дата выдачи
(может быть изменена!)
Срок Баллы Штраф
за день опоздания
Deep Crossentropy Method 8 сентября 1 неделя 10 -0.3
Policy Iteration + Theory 15 сентября 1 неделя 10 -0.3
DQN 29 сентября 2 недели 20 -0.6
A2C 20 октября 2 недели 20 -0.6
PPO 10 ноября 2 недели 20 -0.6
MCTS 1 декабря 2 недели 20 -0.6

Расписание занятий

Дата Формат Занятие Материалы Дополнительные материалы
Лекция

8 сентября

Онлайн Введение в курс. Кросс-энтропийный метод (CEM).
Семинар

8 сентября

Онлайн Библиотека OpenAI gym. Реализация табличного кросс-энтропийного метода.
Лекция

15 сентября

Онлайн Динамическое программирование. Value Iteration, Policy Iteration.
Семинар

15 сентября

Онлайн Реализация Value Iteration.
Лекция

22 сентября

Очно Табличные методы. TD-обучение, Q-обучение.
Семинар

22 сентября

Онлайн Табличное Q-обучение.
Лекция

7 октября

Deep Q-Network (DQN) и его модификации.
Семирнар

7 октября

Модификации DQN.
Лекция

14 октября

Distributional RL. Quantile Regression DQN (QR-DQN).
Семинар

14 октября

Distributional RL - продолжение.
Лекция

21 октября

Многорукие бандиты.
Семинар

21 октября

Внутренняя мотивация для исследования среды.
Лекция

28 октября

Policy gradient подход. Advantage Actor-Critic (A2C).
Семинар

28 октября

REINFORCE.
Лекция

11 ноября

Trust-Region Policy Optimization (TRPO).
Лекция

18 ноября

Proximal Policy Optimization (PPO).
Семинар

18 ноября

Generalized Advantage Estimation (GAE).
Лекция

25 ноября

Непрерывное управление.
Семинар

25 ноября

Soft Actor Critic. Управление, как вероятностный вывод.
Лекция

2 декабря

Имитационное обучение.
Семинар

2 декабря

Обратное обучение с подкреплением.
Лекция

9 декабря

Monte Carlo Tree Search.
Семинар

9 декабря

AlphaZero, MuZero.
Лекция

16 декабря

Linear Quadratic Regulator (LQR). Model-based RL.
Семинар

16 декабря

Dreamer

Страницы курса прошлых лет

2020й год
2021й год
2022й год

Материалы

Личные инструменты