Обучение с подкреплением (курс лекций) / 2023
Материал из MachineLearning.
(Новая: 250px В отличие от классического машинного обучения, в обучении с подкреплени...) |
|||
Строка 43: | Строка 43: | ||
!Лабораторная !! Ориентировочная дата выдачи<br>(может быть изменена!) !! Срок !! Баллы !! Штраф<br> за день опоздания | !Лабораторная !! Ориентировочная дата выдачи<br>(может быть изменена!) !! Срок !! Баллы !! Штраф<br> за день опоздания | ||
|- | |- | ||
- | | | + | | Deep Crossentropy Method || 8 сентября || 1 неделя || 10 || -0.3 |
|- | |- | ||
- | | | + | | Policy Iteration + Theory || 15 сентября || 1 неделя || 10 || -0.3 |
|- | |- | ||
- | | DQN || | + | | DQN || 29 сентября || 2 недели || 20 || -0.6 |
|- | |- | ||
- | | A2C || | + | | A2C || 20 октября || 2 недели || 20 || -0.6 |
|- | |- | ||
- | | PPO || | + | | PPO || 10 ноября || 2 недели || 20 || -0.6 |
+ | |- | ||
+ | | MCTS || 1 декабря || 2 недели || 20 || -0.6 | ||
|- | |- | ||
|} | |} | ||
- | |||
- | |||
- | |||
- | |||
- | |||
== Расписание занятий == | == Расписание занятий == | ||
{| class = "standard" | {| class = "standard" | ||
- | ! !! Занятие !! Материалы !! Дополнительные материалы | + | ! Дата !! Формат !! Занятие !! Материалы !! Дополнительные материалы |
|- | |- | ||
| Лекция<br> | | Лекция<br> | ||
- | '' | + | ''8 сентября'' |
+ | | Онлайн | ||
| Введение в курс. Кросс-энтропийный метод (CEM). | | Введение в курс. Кросс-энтропийный метод (CEM). | ||
| | | | ||
Строка 75: | Строка 73: | ||
* [https://lilianweng.github.io/lil-log/2019/09/05/evolution-strategies.html Обзор эволюционных стратегий] | * [https://lilianweng.github.io/lil-log/2019/09/05/evolution-strategies.html Обзор эволюционных стратегий] | ||
* [https://arxiv.org/pdf/1906.04358.pdf WANN] | * [https://arxiv.org/pdf/1906.04358.pdf WANN] | ||
- | |||
|- | |- | ||
| Семинар<br> | | Семинар<br> | ||
- | '' | + | ''8 сентября'' |
+ | | Онлайн | ||
| Библиотека OpenAI gym. Реализация табличного кросс-энтропийного метода. | | Библиотека OpenAI gym. Реализация табличного кросс-энтропийного метода. | ||
- | |||
| | | | ||
| | | | ||
|- | |- | ||
- | |||
| Лекция<br> | | Лекция<br> | ||
- | '' | + | ''15 сентября'' |
+ | | Онлайн | ||
| Динамическое программирование. Value Iteration, Policy Iteration. | | Динамическое программирование. Value Iteration, Policy Iteration. | ||
| | | | ||
Строка 92: | Строка 89: | ||
| | | | ||
* [https://lilianweng.github.io/lil-log/2018/02/19/a-long-peek-into-reinforcement-learning.html A (Long) Peek into Reinforcement Learning] | * [https://lilianweng.github.io/lil-log/2018/02/19/a-long-peek-into-reinforcement-learning.html A (Long) Peek into Reinforcement Learning] | ||
+ | |- | ||
+ | | Семинар<br> | ||
+ | ''15 сентября'' | ||
+ | | Онлайн | ||
+ | | Реализация Value Iteration. | ||
| | | | ||
|- | |- | ||
- | |||
| Лекция<br> | | Лекция<br> | ||
- | '' | + | ''22 сентября'' |
- | | Табличные методы. TD-обучение. | + | | Очно |
+ | | Табличные методы. TD-обучение, Q-обучение. | ||
| | | | ||
* [[Media:TD_learning_2021.pdf|Слайды занятия]] | * [[Media:TD_learning_2021.pdf|Слайды занятия]] | ||
Строка 103: | Строка 105: | ||
| | | | ||
* [https://distill.pub/2019/paths-perspective-on-value-learning/ Визуализация TD-обучения (distill)] | * [https://distill.pub/2019/paths-perspective-on-value-learning/ Визуализация TD-обучения (distill)] | ||
- | |||
|- | |- | ||
| Семинар<br> | | Семинар<br> | ||
- | '' | + | ''22 сентября'' |
+ | | Онлайн | ||
| Табличное Q-обучение. | | Табличное Q-обучение. | ||
- | |||
- | |||
| | | | ||
|- | |- |
Версия 14:05, 28 августа 2023
В отличие от классического машинного обучения, в обучении с подкреплением алгоритму на вход не поступает обучающая выборка. Вместо этого, обучение проводится <<методом проб и ошибок>>: агент должен сам собрать данные в ходе взаимодействия с окружающим миром (средой) и на основе собранного опыта научиться максимизировать получаемый отклик - подкрепление, или награду. Курс направлен на изучение алгоритмов последних лет, показывающих state-of-the-art результаты во многих задачах дискретного и непрерывного управления за счёт совмещения классической теории с парадигмой глубинного обучения.
Читается для магистров 617-й, 522-й и 622-й групп.
Преподаватели: Кропотов Дмитрий, Темирчев Павел, Илья Синильщиков, Алексей Медведев, Дмитрий Медведев, Владимир Ипполитов, Миньчуань Сюй.
Расписание: Занятия проводятся в смешанном онлайн/офлайн формате. Распределение см. в расписании занятий ниже.
- лекции: по пятницам в 14-35, ауд. ??
- семинары: по пятницам в 16:20, ауд. ??
Канал в Telegram: ссылка
Видеозаписи занятий: TBA
Содержание |
Критерии оценки
В курсе предусмотрено шесть лабораторных работ в формате ноутбуков и письменный экзамен. Итоговая оценка по курсу в 10-балльной шкале рассчитывается по формуле:
Итоговая оценка = Округл.вверх (0.3 * Экз + 0.7 * Лаб)
Оценке 5 в пятибалльной шкале соответствует оценка 8 и выше, оценке 4 - оценка [6, 8), оценке 3 - промежуток [4, 6). Помимо баллов необходимо также выполнить следующие условия:
Итог | Необходимые условия |
---|---|
5 | сдано не менее 5 заданий, оценка за экзамен >= 6 |
4 | сдано не менее 4 заданий, оценка за экзамен >= 4 |
3 | сдано не менее 3 заданий, оценка за экзамен >= 4 |
Домашние задания
Максимальный балл за лабораторные - 100 баллов; итоговая оценка за лабораторные получается делением на десять. За некоторые задания можно будет получить бонусные баллы, о чем будет объявляться при выдаче задания.
Сдавать лабораторные можно в течение недели после мягкого дедлайна (работы сданные в этот период облагаются штрафом: см. таблицу ниже). Лабораторные, сданные позже недели после мягкого дедлайна, не приносят баллов, но учитываются в необходимых условиях для конкретной оценки (см. выше).
Лабораторная | Ориентировочная дата выдачи (может быть изменена!) | Срок | Баллы | Штраф за день опоздания |
---|---|---|---|---|
Deep Crossentropy Method | 8 сентября | 1 неделя | 10 | -0.3 |
Policy Iteration + Theory | 15 сентября | 1 неделя | 10 | -0.3 |
DQN | 29 сентября | 2 недели | 20 | -0.6 |
A2C | 20 октября | 2 недели | 20 | -0.6 |
PPO | 10 ноября | 2 недели | 20 | -0.6 |
MCTS | 1 декабря | 2 недели | 20 | -0.6 |
Расписание занятий
Дата | Формат | Занятие | Материалы | Дополнительные материалы |
---|---|---|---|---|
Лекция 8 сентября | Онлайн | Введение в курс. Кросс-энтропийный метод (CEM). | ||
Семинар 8 сентября | Онлайн | Библиотека OpenAI gym. Реализация табличного кросс-энтропийного метода. | ||
Лекция 15 сентября | Онлайн | Динамическое программирование. Value Iteration, Policy Iteration. |
| |
Семинар 15 сентября | Онлайн | Реализация Value Iteration. | ||
Лекция 22 сентября | Очно | Табличные методы. TD-обучение, Q-обучение. |
| |
Семинар 22 сентября | Онлайн | Табличное Q-обучение. | ||
Лекция 7 октября | Deep Q-Network (DQN) и его модификации. | |||
Семирнар 7 октября | Модификации DQN. | |||
Лекция 14 октября | Distributional RL. Quantile Regression DQN (QR-DQN). | |||
Семинар 14 октября | Distributional RL - продолжение. | |||
Лекция 21 октября | Многорукие бандиты. | |||
Семинар 21 октября | Внутренняя мотивация для исследования среды. | |||
Лекция 28 октября | Policy gradient подход. Advantage Actor-Critic (A2C). |
| ||
Семинар 28 октября | REINFORCE. | |||
Лекция 11 ноября | Trust-Region Policy Optimization (TRPO). | |||
Лекция 18 ноября | Proximal Policy Optimization (PPO). | |||
Семинар 18 ноября | Generalized Advantage Estimation (GAE). |
| ||
Лекция 25 ноября | Непрерывное управление. | |||
Семинар 25 ноября | Soft Actor Critic. Управление, как вероятностный вывод. | |||
Лекция 2 декабря | Имитационное обучение. | |||
Семинар 2 декабря | Обратное обучение с подкреплением. | |||
Лекция 9 декабря | Monte Carlo Tree Search. | |||
Семинар 9 декабря | AlphaZero, MuZero. | |||
Лекция 16 декабря | Linear Quadratic Regulator (LQR). Model-based RL. | |||
Семинар 16 декабря | Dreamer |