Обучение с подкреплением (курс лекций) / 2020

Материал из MachineLearning.

Версия от 05:51, 8 сентября 2020; Kropotov (Обсуждение | вклад)

(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)

В отличие от классического машинного обучения, в обучении с подкреплением алгоритму на вход не поступает обучающая выборка. Вместо этого, обучение проводится "методом проб и ошибок": агент должен сам собрать данные в ходе взаимодействия с окружающим миром (средой) и на основе собранного опыта научиться максимизировать получаемый отклик - подкрепление, или награду. Курс направлен на изучение алгоритмов последних лет, показывающих state-of-the-art результаты во многих задачах дискретного и непрерывного управления за счёт совмещения классической теории с парадигмой глубинного обучения.

Читается в 3-м семестре для магистров каф. ММП.

Преподаватели: Кропотов Дмитрий, Бобров Евгений, Иванов Сергей, Темирчев Павел

Расписание: по вторникам в 12-15

Ссылка на Zoom: ссылка, идентификатор: 880 2271 0514, пароль: 638344

Инвайт в AnyTask: HTA74nV

Канал в Telegram группе: ссылка

Критерии оценки

В курсе предусмотрено шесть лабораторных работ в формате ноутбуков и устный экзамен. Итоговая оценка по курсу в 10-балльной шкале рассчитывается по формуле:

Итоговая оценка = Округл.вверх (0.3 * Экз + 0.7 * Лаб)

Оценке 5 в пятибалльной шкале соответствует оценка 8 и выше, оценке 4 - оценка [6, 8), оценке 3 - промежуток [4, 6). Помимо баллов необходимо также выполнить следующие условия:

Итог	Необходимые условия
5	сдано не менее 5 заданий, оценка за экзамен >= 6
4	сдано не менее 4 заданий, оценка за экзамен >= 4
3	сдано не менее 3 заданий, оценка за экзамен >= 4

Домашние задания

Сдавать лабораторные можно в течение недели после мягкого дедлайна. За некоторые задания можно будет получить бонусные баллы, о чем будет объявляться при выдаче задания. Максимальный балл за лабораторные - 100 баллов; итоговая оценка за лабораторные получается делением на десять.

Лабораторная	Ориентировочная дата выдачи (может быть изменена!)	Срок	Баллы	Штраф за день опоздания
CEM	8 сентября	1 неделя	10	-0.5
Dyn. prog.	22 сентября	1 неделя	10	-0.5
DQN	6 октября	2 недели	20	-1
A2C	27 октября	2 недели	20	-1
PPO	10 ноября	2 недели	20	-1
MCTS	1 декабря	2 недели	20	-1

Экзамен

На экзамене при подготовке билета можно пользоваться любыми материалами; при ответе ничем пользоваться нельзя.

Расписание занятий

	Занятие	Материалы	Дополнительные материалы
Лекция	Введение в курс. Кросс-энтропийный метод (CEM).	CEM for optimization Tetris with CEM	OpenAI ES Обзор эволюционных стратегий WANN
Семинар	Библиотека OpenAI gym. Реализация табличного кросс-энтропийного метода.
Лекция	Динамическое программирование. Value Iteration, Policy Iteration.	Sutton, Barto, ch.3-4	A (Long) Peek into Reinforcement Learning
Лекция	TD-обучение. Deep Q-Network (DQN).	Sutton, Barto, ch.6 DQN Double DQN	Визуализация TD-обучения (distill) Prioritized Experience Replay R2D2
Семинар	Q-обучение.
Лекция	Distributional RL. Categorical DQN (c51), Quantile Regression DQN (QR-DQN).	Видеолекция Categorical DQN QR-DQN	Implicit Quantile Networks (IQN) Rainbow DQN
Лекция	Policy gradient theorem. Advantage Actor-Critic (A2C).	Sutton, Barto, ch.13 A2C	Обзор Policy Gradient подхода Комикс про A2C
Семинар	REINFORCE.
Лекция	Trust-Region Policy Optimization (TRPO).	TRPO
Лекция	Generalized Advantage Estimation (GAE). Proximal Policy Optimization (PPO).	GAE PPO Implementation matters in RL	Sutton, Barto, ch.12
Лекция	Deep Deterministic Policy Gradient (DDPG). Soft Actor-Critic (SAC).	DDPG SAC	Twin-Delayed DDPG (TD3)
Лекция	Имитационное обучение. Обратное обучение с подкреплением.	Guided Cost Learning GAIL	RL as probabilistic inference
Лекция	Monte-Carlo Tree Search. AlphaZero, MuZero.	AlphaZero MuZero	AlphaZero in one picture
Лекция	Linear Quadratic Regulator (LQR). Model-based RL.	Презентация по MCTS и LQR Презентация по Model-based RL	World Models

Материалы

Источник — «http://machinelearning.ru/wiki/index.php?title=%D0%9E%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B5_%D1%81_%D0%BF%D0%BE%D0%B4%D0%BA%D1%80%D0%B5%D0%BF%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5%D0%BC_%28%D0%BA%D1%83%D1%80%D1%81_%D0%BB%D0%B5%D0%BA%D1%86%D0%B8%D0%B9%29_/_2020»

Категории: Учебные курсы | Обучение с подкреплением

Обучение с подкреплением (курс лекций) / 2020

Материал из MachineLearning.

Содержание

Критерии оценки

Домашние задания

Экзамен

Расписание занятий

Материалы

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты