Обучение с подкреплением (курс лекций) / 2021

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Домашние задания)
(Расписание занятий)
Строка 103: Строка 103:
| Лекция<br>
| Лекция<br>
''5 октября''
''5 октября''
-
| DQN и его модификации.
+
| Deep Q-Network (DQN) и его модификации.
|
|
* [[Media:Deep_Q_learning_2021.pdf|Слайды занятия]]
* [[Media:Deep_Q_learning_2021.pdf|Слайды занятия]]
Строка 128: Строка 128:
| Лекция<br>
| Лекция<br>
''19 октября''
''19 октября''
 +
| Внутренняя мотивация для исследования среды.
 +
|
 +
* [https://drive.google.com/file/d/1Z4W_-0IaMNpZnhnMkqcDVM_EA79GFJo-/view Sutton, Barto], ch.2
 +
* [https://arxiv.org/abs/1810.12894 Random Network Distillation (RND)]
 +
* [https://arxiv.org/abs/1705.05363 Intrinsic Curiosity Module (ICM)]
 +
|
 +
* [https://lilianweng.github.io/lil-log/2020/06/07/exploration-strategies-in-deep-reinforcement-learning.html Обзор модулей внутренней мотивации]
 +
* [https://arxiv.org/abs/1605.09674 Variational Information Maximizing Exploration (VIME)]
 +
* [https://arxiv.org/abs/2002.06038 Never Give Up (NGU)]
 +
|-
 +
| Лекция<br>
 +
''26 октября''
| Policy gradient подход. Advantage Actor-Critic (A2C).
| Policy gradient подход. Advantage Actor-Critic (A2C).
|
|
Строка 137: Строка 149:
|-
|-
| Семинар<br>
| Семинар<br>
-
''19 октября''
+
''26 октября''
| REINFORCE.
| REINFORCE.
|
|
Строка 143: Строка 155:
|-
|-
| Лекция<br>
| Лекция<br>
-
''26 октября''
+
''2 ноября''
| Trust-Region Policy Optimization (TRPO).
| Trust-Region Policy Optimization (TRPO).
|
|
Строка 150: Строка 162:
|-
|-
| Лекция<br>
| Лекция<br>
-
''2 ноября''
+
''9 ноября''
| Generalized Advantage Estimation (GAE). Proximal Policy Optimization (PPO).
| Generalized Advantage Estimation (GAE). Proximal Policy Optimization (PPO).
|
|
Строка 160: Строка 172:
|-
|-
| Лекция<br>
| Лекция<br>
-
''9 ноября''
+
''16 ноября''
| Deep Deterministic Policy Gradient (DDPG). Soft Actor-Critic (SAC).
| Deep Deterministic Policy Gradient (DDPG). Soft Actor-Critic (SAC).
|
|
Строка 169: Строка 181:
|-
|-
| Лекция<br>
| Лекция<br>
-
''16 ноября''
+
''23 ноября''
| Имитационное обучение. Обратное обучение с подкреплением.
| Имитационное обучение. Обратное обучение с подкреплением.
|
|
* [https://arxiv.org/pdf/1603.00448.pdf Guided Cost Learning]
* [https://arxiv.org/pdf/1603.00448.pdf Guided Cost Learning]
-
* [https://arxiv.org/pdf/1606.03476.pdf GAIL]
+
* [https://arxiv.org/pdf/1606.03476.pdf Generative Adversarial Imitation Learning (GAIL)]
|
|
* [https://arxiv.org/pdf/1805.00909.pdf RL as probabilistic inference]
* [https://arxiv.org/pdf/1805.00909.pdf RL as probabilistic inference]

Версия 14:01, 12 октября 2021

В отличие от классического машинного обучения, в обучении с подкреплением алгоритму на вход не поступает обучающая выборка. Вместо этого, обучение проводится "методом проб и ошибок": агент должен сам собрать данные в ходе взаимодействия с окружающим миром (средой) и на основе собранного опыта научиться максимизировать получаемый отклик - подкрепление, или награду. Курс направлен на изучение алгоритмов последних лет, показывающих state-of-the-art результаты во многих задачах дискретного и непрерывного управления за счёт совмещения классической теории с парадигмой глубинного обучения.

Читается в 3-м семестре для магистров каф. ММП.

Преподаватели: Кропотов Дмитрий, Бобров Евгений, Иванов Сергей, Темирчев Павел

Расписание: по вторникам в 12-15, ауд. 507

Канал в Telegram: ссылка

Содержание

Критерии оценки

В курсе предусмотрено шесть лабораторных работ в формате ноутбуков и устный экзамен. Итоговая оценка по курсу в 10-балльной шкале рассчитывается по формуле:

Итоговая оценка = Округл.вверх (0.3 * Экз + 0.7 * Лаб)

Оценке 5 в пятибалльной шкале соответствует оценка 8 и выше, оценке 4 - оценка [6, 8), оценке 3 - промежуток [4, 6). Помимо баллов необходимо также выполнить следующие условия:

Итог Необходимые условия
5 сдано не менее 5 заданий, оценка за экзамен >= 6
4 сдано не менее 4 заданий, оценка за экзамен >= 4
3 сдано не менее 3 заданий, оценка за экзамен >= 4

Домашние задания

Сдавать лабораторные можно в течение недели после мягкого дедлайна. За некоторые задания можно будет получить бонусные баллы, о чем будет объявляться при выдаче задания. Максимальный балл за лабораторные - 100 баллов; итоговая оценка за лабораторные получается делением на десять.

Лабораторные, сданные позже недели после мягкого дедлайна, не приносят баллов, но учитываются в необходимых условиях для конкретной оценки (см. выше).

Лабораторная Ориентировочная дата выдачи
(может быть изменена!)
Срок Баллы Штраф
за день опоздания
CEM 14 сентября 1 неделя 10 -0.3
Dyn. prog. 21 сентября 1 неделя 10 -0.3
DQN 5 октября 2 недели 20 -0.6
A2C 26 октября 2 недели 20 -0.6
PPO 9 ноября 2 недели 20 -0.6
MCTS 30 ноября 2 недели 20 -0.6

Экзамен

На экзамене все студенты берут случайный билет. В течение часа студент самостоятельно пишет ответ на экзаменационный вопрос, при этом можно пользоваться любыми материалами. Далее студент устно отвечает билет экзаменатору и обсуждаются различные вопросы по курсу уже без использования материалов. Для положительной оценки за экзамен необходимо также справиться с вопросами из теоретического минимума.

Список вопросов к экзамену: TBA

Расписание занятий

Занятие Материалы Дополнительные материалы
Лекция

7 сентября

Введение в курс. Кросс-энтропийный метод (CEM).
Лекция

14 сентября

Динамическое программирование. Value Iteration, Policy Iteration.
Семинар

14 сентября

Библиотека OpenAI gym. Реализация табличного кросс-энтропийного метода.
Лекция

21 сентября

Табличные методы.
Семинар

28 сентября

Q-обучение.
Лекция

5 октября

Deep Q-Network (DQN) и его модификации.
Лекция

12 октября

Distributional RL. Categorical DQN (c51), Quantile Regression DQN (QR-DQN).
Лекция

19 октября

Внутренняя мотивация для исследования среды.
Лекция

26 октября

Policy gradient подход. Advantage Actor-Critic (A2C).
Семинар

26 октября

REINFORCE.
Лекция

2 ноября

Trust-Region Policy Optimization (TRPO).
Лекция

9 ноября

Generalized Advantage Estimation (GAE). Proximal Policy Optimization (PPO).
Лекция

16 ноября

Deep Deterministic Policy Gradient (DDPG). Soft Actor-Critic (SAC).
Лекция

23 ноября

Имитационное обучение. Обратное обучение с подкреплением.
Лекция

23 ноября

Monte Carlo Tree Search. AlphaZero, MuZero.
Лекция

30 ноября

Linear Quadratic Regulator (LQR). Model-based RL.

Страницы курса прошлых лет

2020й год

Материалы

Личные инструменты