Обучение с подкреплением (курс лекций) / 2024
Материал из MachineLearning.
В отличие от классического машинного обучения, в обучении с подкреплением алгоритму на вход не поступает обучающая выборка. Вместо этого, обучение проводится "методом проб и ошибок": агент должен сам собрать данные в ходе взаимодействия с окружающим миром (средой) и на основе собранного опыта научиться максимизировать получаемый отклик - подкрепление, или награду. Курс направлен на изучение алгоритмов последних лет, показывающих state-of-the-art результаты во многих задачах дискретного и непрерывного управления за счёт совмещения классической теории с парадигмой глубинного обучения.
Отдельная благодарность Дмитрию Кропотову за создание и организацию курса.
Читается для студентов 617-й группы, а также для студентов других кафедр в качестве спецкурса.
Преподаватели: Темирчев Павел, Илья Синильщиков, Алексей Медведев, Дмитрий Медведев, Алексей Панков, Тингир Бадмаев.
Расписание: Занятия проводятся в офлайн формате (за редкими исключениями, о чем будет объявлено специально).
- лекции: по пятницам в 14-35, ауд. 510
- семинары: по пятницам в 16:20, ауд. 510
Канал в Telegram: ссылка
Чат в Telegram: ссылка
Видеозаписи занятий: TBA
Репозиторий с домашними заданиями: ссылка
Содержание |
Критерии оценки
В курсе предусмотрено шесть лабораторных работ в формате ноутбуков. Для студентов кафедры ММП также предусмотрен устный экзамен. Для студентов, сдающих курс как спецкурс, итоговая оценка выставляется на основе только лабораторных работ.
Балл за лабораторные работы вычисляется по формуле:
Лаб = сумма_набранных_баллов / максимальный_балл_за_лабораторные
Оценка за курс в десятибалльной шкале для студентов, сдающих его как спецкурс:
Итоговая_оценка_спецкурс = Округл.вверх (Лаб)
Оценка за курс в десятибалльной шкале для студентов кафедры ММП:
Итоговая_оценка_ммп = Округл.вверх (0.3 * Экз + 0.7 * Лаб)
Оценке 5 в пятибалльной шкале соответствует оценка 8 и выше, оценке 4 - оценка [6, 8), оценке 3 - промежуток [4, 6).
Помимо баллов необходимо также выполнить следующие условия (условие на оценку за экзамен касается только студентов кафедры ММП):
Итог | Необходимые условия |
---|---|
5 | сдано не менее 5 заданий, оценка за экзамен >= 6 |
4 | сдано не менее 4 заданий, оценка за экзамен >= 4 |
3 | сдано не менее 3 заданий, оценка за экзамен >= 4 |
Домашние задания
Максимальный балл за лабораторные - 89 баллов. За некоторые задания можно будет получить бонусные баллы, о чем будет объявляться при выдаче задания.
Сдавать лабораторные можно в течение недели после мягкого дедлайна (работы сданные в этот период облагаются штрафом: см. таблицу ниже). Лабораторные, сданные позже недели после мягкого дедлайна, не приносят баллов, но учитываются в необходимых условиях для конкретной оценки (см. выше).
Лабораторная | Ориентировочная дата выдачи (может быть изменена!) | Срок | Баллы | Штраф за день опоздания |
---|---|---|---|---|
Deep Crossentropy Method | 22 сентября | 1 неделя | 12 | -0.3 |
Policy Iteration + Theory | 27 сентября | 1 неделя | 10 | -0.3 |
DQN | 11 октября | 2 недели | 17 | -0.6 |
A2C | 1 ноября | 2 недели | 20 | -0.6 |
PPO | 15 ноября | 1 неделя | 10 | -0.3 |
SAC/TD3 | 29 ноября | 1 неделя | 10 | -0.3 |
Расписание занятий
Дата | Формат | Занятие | Материалы | Дополнительные материалы |
---|---|---|---|---|
Лекция 20 сентября | Очно | Введение в курс. Кросс-энтропийный метод (CEM). | ||
Семинар 20 сентября | Очно | Библиотека OpenAI gym. Реализация табличного кросс-энтропийного метода. | ||
Лекция 27 сентября | Очно | Динамическое программирование. Value Iteration, Policy Iteration. |
| |
Семинар 27 сентября | Онлайн | Реализация Value Iteration. | ||
Лекция 4 октября | Очно | Табличные методы. TD-обучение, Q-обучение. |
| |
Семинар 4 октября | Онлайн | Табличное Q-обучение. | ||
Лекция 11 октября | Очно | Deep Q-Network (DQN) и его модификации. | ||
Лекция 18 октября | Очно | Distributional RL. Quantile Regression DQN (QR-DQN). | ||
Лекция 25 октября | Очно | Многорукие бандиты, внутренняя мотивация для исследования среды. | ||
Семинар 25 октября | Очно | Бернулиевские бандиты, ICM, RND. | ||
Лекция 1 ноября | Очно | Policy gradient подход. Advantage Actor-Critic (A2C). |
| |
Семинар 1 ноября | Очно | Реализация policy gradient | ||
Лекция 8 ноября | Очно | Proximal Policy Optimization (PPO) и Generalized Advantage Estimation (GAE). | ||
Лекция 15 ноября | Очно | DDPG, Soft Actor Critic. | ||
Лекция 22 ноября | Очно | Имитационное обучение. Обратное обучение с подкреплением. | ||
Лекция 29 ноября | Очно | Monte Carlo Tree Search. AlphaZero, MuZero. | ||
Лекция 6 декабря | Очно | Linear Quadratic Regulator (LQR). Model-based RL. Dreamer. | ||
Лекция 13 декабря | Очно | LLM Alignment, RL from human feedback. | ||
Лекция 20 декабря | Очно | Partially observable MDPs (POMDPs). |
Страницы курса прошлых лет
2020-й год
2021-й год
2022-й год
2023-й год