Обучение с подкреплением (курс лекций) / 2021

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
м
м
Строка 9: Строка 9:
'''Расписание:''' по вторникам в 12-15, ауд. 507
'''Расписание:''' по вторникам в 12-15, ауд. 507
-
'''Канал в Telegram группе:''' [https://t.me/joinchat/VkEFFxdonGFlMzAy ссылка]
+
'''Канал в Telegram:''' [https://t.me/joinchat/VkEFFxdonGFlMzAy ссылка]
==Критерии оценки==
==Критерии оценки==
-
В курсе предусмотрено пять лабораторных работ в формате ноутбуков и устный экзамен. Итоговая оценка по курсу в 10-балльной шкале рассчитывается по формуле:
+
В курсе предусмотрено шесть лабораторных работ в формате ноутбуков и устный экзамен. Итоговая оценка по курсу в 10-балльной шкале рассчитывается по формуле:
'''Итоговая оценка = Округл.вверх (0.3 * Экз + 0.7 * Лаб)'''
'''Итоговая оценка = Округл.вверх (0.3 * Экз + 0.7 * Лаб)'''
Строка 38: Строка 38:
!Лабораторная !! Ориентировочная дата выдачи<br>(может быть изменена!) !! Срок !! Баллы !! Штраф<br> за день опоздания
!Лабораторная !! Ориентировочная дата выдачи<br>(может быть изменена!) !! Срок !! Баллы !! Штраф<br> за день опоздания
|-
|-
-
| CEM || 14 сентября || 1 неделя || 10 || -0.5
+
| CEM || 14 сентября || 1 неделя || 10 (+5 бонусных) || -0.3
|-
|-
-
| Dyn. prog. || 28 сентября || 1 неделя || 10 || -0.5
+
| Dyn. prog. || 28 сентября || 1 неделя || 10 || -0.3
|-
|-
-
| DQN || 12 октября || 2 недели || 20 || -1
+
| DQN || 12 октября || 2 недели || 20 || -0.6
|-
|-
-
| A2C || 2 ноября || 2 недели || 20 || -1
+
| A2C || 2 ноября || 2 недели || 20 || -0.6
|-
|-
-
| PPO || 23 ноября || 2 недели || 20 || -1
+
| PPO || 23 ноября || 2 недели || 20 || -0.6
|-
|-
-
| MCTS || 14 декабря || 2 недели || 20 || -1
+
| MCTS || 14 декабря || 2 недели || 20 || -0.6
|}
|}
Строка 98: Строка 98:
* [https://openreview.net/pdf?id=r1lyTjAqYX R2D2]
* [https://openreview.net/pdf?id=r1lyTjAqYX R2D2]
* [https://arxiv.org/abs/2003.13350 Agent57]
* [https://arxiv.org/abs/2003.13350 Agent57]
 +
|-
 +
| Семинар<br>
 +
''21 сентября''
 +
| Q-обучение.
 +
|
 +
|
|-
|-
|}
|}

Версия 07:44, 15 сентября 2021

В отличие от классического машинного обучения, в обучении с подкреплением алгоритму на вход не поступает обучающая выборка. Вместо этого, обучение проводится "методом проб и ошибок": агент должен сам собрать данные в ходе взаимодействия с окружающим миром (средой) и на основе собранного опыта научиться максимизировать получаемый отклик - подкрепление, или награду. Курс направлен на изучение алгоритмов последних лет, показывающих state-of-the-art результаты во многих задачах дискретного и непрерывного управления за счёт совмещения классической теории с парадигмой глубинного обучения.

Читается в 3-м семестре для магистров каф. ММП.

Преподаватели: Кропотов Дмитрий, Бобров Евгений, Иванов Сергей, Темирчев Павел

Расписание: по вторникам в 12-15, ауд. 507

Канал в Telegram: ссылка

Содержание

Критерии оценки

В курсе предусмотрено шесть лабораторных работ в формате ноутбуков и устный экзамен. Итоговая оценка по курсу в 10-балльной шкале рассчитывается по формуле:

Итоговая оценка = Округл.вверх (0.3 * Экз + 0.7 * Лаб)

Оценке 5 в пятибалльной шкале соответствует оценка 8 и выше, оценке 4 - оценка [6, 8), оценке 3 - промежуток [4, 6). Помимо баллов необходимо также выполнить следующие условия:

Итог Необходимые условия
5 сдано не менее 5 заданий, оценка за экзамен >= 6
4 сдано не менее 4 заданий, оценка за экзамен >= 4
3 сдано не менее 3 заданий, оценка за экзамен >= 4

Домашние задания

Сдавать лабораторные можно в течение недели после мягкого дедлайна. За некоторые задания можно будет получить бонусные баллы, о чем будет объявляться при выдаче задания. Максимальный балл за лабораторные - 100 баллов; итоговая оценка за лабораторные получается делением на десять.

Лабораторные, сданные позже недели после мягкого дедлайна, не приносят баллов, но учитываются в необходимых условиях для конкретной оценки (см. выше).

Лабораторная Ориентировочная дата выдачи
(может быть изменена!)
Срок Баллы Штраф
за день опоздания
CEM 14 сентября 1 неделя 10 (+5 бонусных) -0.3
Dyn. prog. 28 сентября 1 неделя 10 -0.3
DQN 12 октября 2 недели 20 -0.6
A2C 2 ноября 2 недели 20 -0.6
PPO 23 ноября 2 недели 20 -0.6
MCTS 14 декабря 2 недели 20 -0.6

Экзамен

На экзамене все студенты берут случайный билет. В течение часа студент самостоятельно пишет ответ на экзаменационный вопрос. При этом можно пользоваться любыми материалами. Далее студент устно отвечает билет экзаменатору.

Список вопросов к экзамену: TBA

Расписание занятий

Занятие Материалы Дополнительные материалы
Лекция

7 сентября

Введение в курс. Кросс-энтропийный метод (CEM).
Лекция

14 сентября

Динамическое программирование. Value Iteration, Policy Iteration.
Семинар

14 сентября

Библиотека OpenAI gym. Реализация табличного кросс-энтропийного метода.
Лекция

21 сентября

TD-обучение. Deep Q-Network (DQN).
Семинар

21 сентября

Q-обучение.

Страницы курса прошлых лет

2020й год

Материалы

Личные инструменты