Обучение с подкреплением (курс лекций) / 2020

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Расписание занятий)
Строка 9: Строка 9:
'''Ссылка на Zoom:''' To be announced
'''Ссылка на Zoom:''' To be announced
-
'''Инвайт в AnyTask:''' To be announced
+
'''Инвайт в AnyTask:''' HTA74nV
'''Канал в Telegram группе:''' To be announced
'''Канал в Telegram группе:''' To be announced
Строка 17: Строка 17:
В курсе предусмотрено шесть лабораторных работ в формате ноутбуков и устный экзамен. Итоговая оценка по курсу в 10-балльной шкале рассчитывается по формуле:
В курсе предусмотрено шесть лабораторных работ в формате ноутбуков и устный экзамен. Итоговая оценка по курсу в 10-балльной шкале рассчитывается по формуле:
-
'''Итоговая оценка = 0.3 * Экз + 0.7 * Лаб'''
+
'''Итоговая оценка = Округл.вверх (0.3 * Экз + 0.7 * Лаб)'''
-
Итоговая оценка округляется в пользу студента. Оценке 5 в пятибалльной шкале соответствует оценка 8 и выше, оценке 4 - оценка [6, 8), оценке 3 - промежуток [4, 6). Помимо баллов необходимо также выполнить следующие условия:
+
Оценке 5 в пятибалльной шкале соответствует оценка 8 и выше, оценке 4 - оценка [6, 8), оценке 3 - промежуток [4, 6). Помимо баллов необходимо также выполнить следующие условия:
{| class="standard"
{| class="standard"
!Итог !! Необходимые условия
!Итог !! Необходимые условия
Строка 31: Строка 31:
|}
|}
-
==Домашние задания==
+
== Домашние задания ==
Сдавать лабораторные можно в течение недели после мягкого дедлайна. За некоторые задания можно будет получить бонусные баллы, о чем будет объявляться при выдаче задания. Максимальный балл за лабораторные - 100 баллов; итоговая оценка за лабораторные получается делением на десять.
Сдавать лабораторные можно в течение недели после мягкого дедлайна. За некоторые задания можно будет получить бонусные баллы, о чем будет объявляться при выдаче задания. Максимальный балл за лабораторные - 100 баллов; итоговая оценка за лабораторные получается делением на десять.

Версия 17:12, 23 августа 2020

В отличие от классического машинного обучения, в обучении с подкреплением алгоритму на вход не поступает обучающая выборка. Вместо этого, обучение проводится "методом проб и ошибок": агент должен сам собрать данные в ходе взаимодействия с окружающим миром (средой) и на основе собранного опыта научиться максимизировать получаемый отклик - подкрепление, или награду. Курс направлен на изучение алгоритмов последних лет, показывающих state-of-the-art результаты во многих задачах дискретного и непрерывного управления за счёт совмещения классической теории с парадигмой глубинного обучения.

Читается в 3-м семестре для магистров каф. ММП.

Расписание: To be announced (1 занятие в неделю)

Ссылка на Zoom: To be announced

Инвайт в AnyTask: HTA74nV

Канал в Telegram группе: To be announced

Содержание

Критерии оценки

В курсе предусмотрено шесть лабораторных работ в формате ноутбуков и устный экзамен. Итоговая оценка по курсу в 10-балльной шкале рассчитывается по формуле:

Итоговая оценка = Округл.вверх (0.3 * Экз + 0.7 * Лаб)

Оценке 5 в пятибалльной шкале соответствует оценка 8 и выше, оценке 4 - оценка [6, 8), оценке 3 - промежуток [4, 6). Помимо баллов необходимо также выполнить следующие условия:

Итог Необходимые условия
5 сдано не менее 5 заданий, оценка за экзамен >= 6
4 сдано не менее 4 заданий, оценка за экзамен >= 4
3 сдано не менее 3 заданий, оценка за экзамен >= 4

Домашние задания

Сдавать лабораторные можно в течение недели после мягкого дедлайна. За некоторые задания можно будет получить бонусные баллы, о чем будет объявляться при выдаче задания. Максимальный балл за лабораторные - 100 баллов; итоговая оценка за лабораторные получается делением на десять.

Лабораторная Ориентировочная дата выдачи
(может быть изменена!)
Срок Баллы Штраф
за день опоздания
CEM 8 сентября 1 неделя 10 -0.5
Dyn. prog. 22 сентября 1 неделя 10 -0.5
DQN 6 октября 2 недели 20 -1
A2C 27 октября 2 недели 20 -1
PPO 10 ноября 2 недели 20 -1
MCTS 1 декабря 2 недели 20 -1

Экзамен

На экзамене при подготовке билета можно пользоваться любыми материалами; при ответе ничем пользоваться нельзя. Для получения положительной оценки за экзамен нужно знать ответы на вопросы теоретического минимума.

Расписание занятий

Занятие Материалы Дополнительные материалы
Лекция Введение в курс. Кросс-энтропийный метод (CEM).
Семинар Библиотека OpenAI gym. Реализация табличного кросс-энтропийного метода.
Лекция Динамическое программирование. Value Iteration, Policy Iteration.
Лекция TD-обучение. Deep Q-Network (DQN).
Семинар Q-обучение.
Лекция Distributional RL. Categorical DQN (c51), Quantile Regression DQN (QR-DQN).
Лекция Policy gradient theorem. Advantage Actor-Critic (A2C).
Семинар REINFORCE.
Лекция Trust-Region Policy Optimization (TRPO).
Лекция Generalized Advantage Estimation (GAE). Proximal Policy Optimization (PPO).
Лекция Deep Deterministic Policy Gradient (DDPG). Soft Actor-Critic (SAC).
Лекция Имитационное обучение. Обратное обучение с подкреплением.
Лекция Monte-Carlo Tree Search. AlphaZero, MuZero.
Лекция Linear Quadratic Regulator (LQR). Model-based RL.

Материалы

Личные инструменты