Обучение с подкреплением (курс лекций) / 2021
Материал из MachineLearning.
| м  | м  | ||
| Строка 9: | Строка 9: | ||
| '''Расписание:''' по вторникам в 12-15, ауд. 507 | '''Расписание:''' по вторникам в 12-15, ауд. 507 | ||
| - | '''Канал в Telegram  | + | '''Канал в Telegram:''' [https://t.me/joinchat/VkEFFxdonGFlMzAy ссылка] | 
| ==Критерии оценки== | ==Критерии оценки== | ||
| - | В курсе предусмотрено  | + | В курсе предусмотрено шесть лабораторных работ в формате ноутбуков и устный экзамен. Итоговая оценка по курсу в 10-балльной шкале рассчитывается по формуле: | 
| '''Итоговая оценка = Округл.вверх (0.3 * Экз + 0.7 * Лаб)''' | '''Итоговая оценка = Округл.вверх (0.3 * Экз + 0.7 * Лаб)''' | ||
| Строка 38: | Строка 38: | ||
|  !Лабораторная !! Ориентировочная дата выдачи<br>(может быть изменена!) !! Срок !! Баллы !! Штраф<br> за день опоздания |  !Лабораторная !! Ориентировочная дата выдачи<br>(может быть изменена!) !! Срок !! Баллы !! Штраф<br> за день опоздания | ||
|  |- |  |- | ||
| - |  | CEM || 14 сентября || 1 неделя || 10 || -0. | + |  | CEM || 14 сентября || 1 неделя || 10 (+5 бонусных) || -0.3 | 
|  |- |  |- | ||
| - |  | Dyn. prog. || 28 сентября || 1 неделя || 10 || -0. | + |  | Dyn. prog. || 28 сентября || 1 неделя || 10 || -0.3 | 
|  |- |  |- | ||
| - |  | DQN || 12 октября || 2 недели || 20 || - | + |  | DQN || 12 октября || 2 недели || 20 || -0.6 | 
|  |- |  |- | ||
| - |  | A2C || 2 ноября || 2 недели || 20 || - | + |  | A2C || 2 ноября || 2 недели || 20 || -0.6 | 
|  |- |  |- | ||
| - |  | PPO || 23 ноября || 2 недели || 20 || - | + |  | PPO || 23 ноября || 2 недели || 20 || -0.6 | 
|  |- |  |- | ||
| - |  | MCTS || 14 декабря || 2 недели || 20 || - | + |  | MCTS || 14 декабря || 2 недели || 20 || -0.6 | 
|  |} |  |} | ||
| Строка 98: | Строка 98: | ||
| * [https://openreview.net/pdf?id=r1lyTjAqYX R2D2] | * [https://openreview.net/pdf?id=r1lyTjAqYX R2D2] | ||
| * [https://arxiv.org/abs/2003.13350 Agent57] | * [https://arxiv.org/abs/2003.13350 Agent57] | ||
| + | |- | ||
| + | | Семинар<br> | ||
| + | ''21 сентября'' | ||
| + | | Q-обучение. | ||
| + | | | ||
| + | | | ||
| |- | |- | ||
| |} | |} | ||
Версия 07:44, 15 сентября 2021
В отличие от классического машинного обучения, в обучении с подкреплением алгоритму на вход не поступает обучающая выборка. Вместо этого, обучение проводится "методом проб и ошибок": агент должен сам собрать данные в ходе взаимодействия с окружающим миром (средой) и на основе собранного опыта научиться максимизировать получаемый отклик - подкрепление, или награду. Курс направлен на изучение алгоритмов последних лет, показывающих state-of-the-art результаты во многих задачах дискретного и непрерывного управления за счёт совмещения классической теории с парадигмой глубинного обучения.
Читается в 3-м семестре для магистров каф. ММП.
Преподаватели: Кропотов Дмитрий, Бобров Евгений, Иванов Сергей, Темирчев Павел
Расписание: по вторникам в 12-15, ауд. 507
Канал в Telegram: ссылка
| Содержание | 
Критерии оценки
В курсе предусмотрено шесть лабораторных работ в формате ноутбуков и устный экзамен. Итоговая оценка по курсу в 10-балльной шкале рассчитывается по формуле:
Итоговая оценка = Округл.вверх (0.3 * Экз + 0.7 * Лаб)
Оценке 5 в пятибалльной шкале соответствует оценка 8 и выше, оценке 4 - оценка [6, 8), оценке 3 - промежуток [4, 6). Помимо баллов необходимо также выполнить следующие условия:
| Итог | Необходимые условия | 
|---|---|
| 5 | сдано не менее 5 заданий, оценка за экзамен >= 6 | 
| 4 | сдано не менее 4 заданий, оценка за экзамен >= 4 | 
| 3 | сдано не менее 3 заданий, оценка за экзамен >= 4 | 
Домашние задания
Сдавать лабораторные можно в течение недели после мягкого дедлайна. За некоторые задания можно будет получить бонусные баллы, о чем будет объявляться при выдаче задания. Максимальный балл за лабораторные - 100 баллов; итоговая оценка за лабораторные получается делением на десять.
Лабораторные, сданные позже недели после мягкого дедлайна, не приносят баллов, но учитываются в необходимых условиях для конкретной оценки (см. выше).
| Лабораторная | Ориентировочная дата выдачи (может быть изменена!) | Срок | Баллы | Штраф за день опоздания | 
|---|---|---|---|---|
| CEM | 14 сентября | 1 неделя | 10 (+5 бонусных) | -0.3 | 
| Dyn. prog. | 28 сентября | 1 неделя | 10 | -0.3 | 
| DQN | 12 октября | 2 недели | 20 | -0.6 | 
| A2C | 2 ноября | 2 недели | 20 | -0.6 | 
| PPO | 23 ноября | 2 недели | 20 | -0.6 | 
| MCTS | 14 декабря | 2 недели | 20 | -0.6 | 
Экзамен
На экзамене все студенты берут случайный билет. В течение часа студент самостоятельно пишет ответ на экзаменационный вопрос. При этом можно пользоваться любыми материалами. Далее студент устно отвечает билет экзаменатору.
Список вопросов к экзамену: TBA
Расписание занятий
| Занятие | Материалы | Дополнительные материалы | |
|---|---|---|---|
| Лекция 7 сентября | Введение в курс. Кросс-энтропийный метод (CEM). | ||
| Лекция 14 сентября | Динамическое программирование. Value Iteration, Policy Iteration. | 
 | |
| Семинар 14 сентября | Библиотека OpenAI gym. Реализация табличного кросс-энтропийного метода. | ||
| Лекция 21 сентября | TD-обучение. Deep Q-Network (DQN). | 
 | |
| Семинар 21 сентября | Q-обучение. | 
Страницы курса прошлых лет
Материалы
- Полунеофициальный конспект (возможны ошибки! Просьба всем собирать баги и опечатки!)
- Курс Practical RL (ШАД)
- Курс Deep Reinforcement Learning (CS 285), UC Berkeley


