Методы обучения с подкреплением

Материал из MachineLearning.

Статья написана с использованием LLM OpenAI GPT-5.4 и проверена участником Ilia Prokofev 13:25, 16 июня 2026 (MSD)

Методы обучения с подкреплением — семейство методов машинного обучения, в которых агент учится принимать решения, взаимодействуя со средой и получая от неё сигналы вознаграждения. В отличие от обучения с учителем, где для каждого объекта заранее задан правильный ответ, в обучении с подкреплением агенту обычно известно только то, насколько удачным оказалось уже выполненное действие. Из-за этого задача сводится не просто к аппроксимации зависимости между входом и выходом, а к поиску такой стратегии поведения, которая максимизирует суммарное вознаграждение на достаточно длинном горизонте.

Обучение с подкреплением применяется в задачах управления, робототехнике, игровых системах, рекомендательных системах и при дообучении генеративных моделей на человеческих или автоматически заданных предпочтениях. В последние годы методы этого класса активно используются и в посттренировке больших языковых моделей.

Содержание

1 Постановка задачи
2 Основные компоненты
3 Основные семейства методов
4 Связь с современными генеративными моделями
5 Преимущества и трудности
6 Области применения
7 См. также
8 Литература

Постановка задачи

Классическая постановка обучения с подкреплением обычно описывается через марковский процесс принятия решений (MDP). Пусть на шаге t агент находится в состоянии s_t, выбирает действие a_t, получает вознаграждение r_t и переходит в новое состояние s_t+1.

Тогда взаимодействие агента со средой можно записать в виде последовательности:

s_t → a_t → r_t, s_t+1

Выбор действия определяется стратегией агента π(a|s), то есть условным распределением действий в каждом состоянии.

Цель агента состоит в максимизации ожидаемой суммы дисконтированных вознаграждений:

G_t = Σ_k=0^∞ γ^k r_t+k

где γ ∈ [0, 1] — коэффициент дисконтирования, определяющий относительную важность будущих наград. При γ, близком к 0, агент ориентируется в основном на немедленный выигрыш, а при γ, близком к 1, в большей степени учитывает долгосрочные последствия своих действий.

Основные компоненты

В большинстве методов обучения с подкреплением используются следующие понятия.

Стратегия (policy) определяет, какое действие агент выбирает в каждом состоянии. Стратегия может быть детерминированной или стохастической.

Функция ценности оценивает ожидаемое будущее вознаграждение. Различают ценность состояния <math>V^\pi(s)</math> и ценность пары состояние-действие <math>Q^\pi(s,a)</math>. Эти функции позволяют сравнивать альтернативные действия не только по немедленной награде, но и по их долгосрочному эффекту.

Модель среды описывает вероятности переходов между состояниями и распределение вознаграждений. Если модель известна или может быть достаточно точно выучена, возможны методы планирования. Если модель недоступна, агент учится напрямую из опыта.

Баланс исследования и использования (exploration-exploitation trade-off) — фундаментальная проблема обучения с подкреплением. Агенту необходимо одновременно использовать уже найденные хорошие действия и исследовать новые, которые могут оказаться ещё лучше.

Основные семейства методов

Методы, основанные на функции ценности

Эти методы строят или аппроксимируют функцию ценности, а затем выбирают действия, которые максимизируют ожидаемую награду. Классические примеры — Q-learning и SARSA.

Идея состоит в том, чтобы постепенно уточнять оценки полезности действий на основе наблюдаемого опыта. Такие методы особенно естественны в задачах с дискретным пространством действий, где можно непосредственно сравнивать несколько альтернатив.

Преимущества:

относительная простота постановки;
тесная связь с динамическим программированием;
хорошая интерпретируемость в небольших задачах.

Ограничения:

трудности при непрерывных действиях;
необходимость аккуратной аппроксимации в больших пространствах состояний;
чувствительность к редким вознаграждениям и нестабильному исследованию.

Методы градиентной оптимизации стратегии

Вместо того чтобы оценивать полезность каждого действия отдельно, методы этого класса напрямую параметризуют стратегию и оптимизируют её параметры по градиенту ожидаемого вознаграждения. Такие подходы часто называют policy gradient methods.

Преимущество прямой оптимизации стратегии заключается в том, что она естественно переносится на непрерывные действия и стохастические политики. Недостаток состоит в высокой дисперсии оценок градиента: чтобы понять, улучшается ли стратегия, нередко требуется большой объём опыта.

Методы Actor-critic

Методы Actor-critic объединяют два подхода. Компонент actor отвечает за стратегию, а компонент critic оценивает качество состояний или действий и тем самым направляет обновление стратегии.

Именно это семейство стало одним из центральных в современном глубоком обучении с подкреплением. К нему относятся многие практически важные алгоритмы, включая Proximal Policy Optimization и другие методы, использующие ограниченные по величине обновления стратегии для стабилизации обучения.

Моделе-ориентированные методы

Если агент располагает моделью среды или умеет её выучивать, он может не только реагировать на уже полученный опыт, но и планировать будущие действия. Такой подход характерен для model-based reinforcement learning.

Потенциальное преимущество здесь — более высокая эффективностью по данным: часть опыта можно заменять мысленными прогонками по модели. Однако ошибки модели способны систематически искажать оценку действий и приводить к накоплению смещения.

Пакетное и офлайн-обучение

Во многих реальных приложениях взаимодействовать со средой онлайн дорого, опасно или невозможно. Тогда агент обучается по заранее собранному набору траекторий. Это направление известно как offline reinforcement learning.

Офлайн-режим особенно важен в медицине, промышленном управлении и при дообучении крупных генеративных моделей, когда сбор новых экспериментов ограничен стоимостью или требованиями безопасности.

Связь с современными генеративными моделями

Хотя исторически обучение с подкреплением развивалось в контексте управления и игр, сегодня его идеи активно применяются в посттренировке генеративных моделей. Вместо награды за действие в физической среде используются сигналы качества ответа, предпочтения человека, автоматические рубрики оценки или суррогатные reward-модели.

В этом контексте развиваются такие подходы, как Direct Preference Optimization, Group Relative Policy Optimization и другие алгоритмы оптимизации политики по предпочтениям. Они не всегда воспроизводят классическую схему RL в чистом виде, но сохраняют её основную идею: улучшать поведение модели на основе внешнего сигнала полезности, а не только на основе правдоподобия обучающего текста.

Преимущества и трудности

Обучение с подкреплением привлекательно тем, что позволяет формализовать целенаправленное поведение и учитывать долгосрочные последствия решений. Именно поэтому оно естественно используется там, где качество действия нельзя оценить изолированно от последующих шагов.

В то же время методы обучения с подкреплением сталкиваются с рядом трудностей:

данные зависят от текущей стратегии агента и потому не являются независимыми;
награда может быть редкой, шумной или плохо отражать настоящую цель;
исследование пространства действий требует дополнительных механизмов;
обучение часто оказывается вычислительно дорогим и нестабильным;
при неудачно заданной награде агент может находить формально выгодные, но нежелательные стратегии поведения.

Последняя проблема особенно важна в современных задачах выравнивания ИИ: если сигнал награды задаёт цель неточно, система может научиться оптимизировать метрику, не решая содержательную задачу.

Области применения

Методы обучения с подкреплением применяются в самых разных областях:

управление движением роботов и манипуляторов;
игровые агенты и самообучающиеся системы принятия решений;
управление ресурсами и последовательная оптимизация;
рекомендательные системы и персонализация;
автоматическая настройка сложных вычислительных систем;
дообучение языковых моделей и генеративных моделей по предпочтениям.

См. также

Литература

Sutton R. S., Barto A. G. Reinforcement Learning: An Introduction. 2nd ed. MIT Press, 2018.
Bertsekas D. P. Dynamic Programming and Optimal Control. Athena Scientific, 2017.
Kaelbling L. P., Littman M. L., Moore A. W. Reinforcement Learning: A Survey // Journal of Artificial Intelligence Research. 1996. Vol. 4. P. 237-285.
Szepesvari C. Algorithms for Reinforcement Learning. Morgan and Claypool, 2010.

Источник — «http://machinelearning.ru/wiki/index.php?title=%D0%9C%D0%B5%D1%82%D0%BE%D0%B4%D1%8B_%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D1%8F_%D1%81_%D0%BF%D0%BE%D0%B4%D0%BA%D1%80%D0%B5%D0%BF%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5%D0%BC»

Категории: Машинное обучение | Искусственный интеллект