Методы обучения с подкреплением
Материал из MachineLearning.
| | Статья написана с использованием LLM OpenAI GPT-5.4 и проверена участником Ilia Prokofev 13:25, 16 июня 2026 (MSD) |
Методы обучения с подкреплением — семейство методов машинного обучения, в которых агент учится принимать решения, взаимодействуя со средой и получая от неё сигналы вознаграждения. В отличие от обучения с учителем, где для каждого объекта заранее задан правильный ответ, в обучении с подкреплением агенту обычно известно только то, насколько удачным оказалось уже выполненное действие. Из-за этого задача сводится не просто к аппроксимации зависимости между входом и выходом, а к поиску такой стратегии поведения, которая максимизирует суммарное вознаграждение на достаточно длинном горизонте.
Обучение с подкреплением применяется в задачах управления, робототехнике, игровых системах, рекомендательных системах и при дообучении генеративных моделей на человеческих или автоматически заданных предпочтениях. В последние годы методы этого класса активно используются и в посттренировке больших языковых моделей.
Содержание |
Постановка задачи
Классическая постановка обучения с подкреплением обычно описывается через марковский процесс принятия решений (MDP). Пусть на шаге t агент находится в состоянии st, выбирает действие at, получает вознаграждение rt и переходит в новое состояние st+1.
Тогда взаимодействие агента со средой можно записать в виде последовательности:
- st → at → rt, st+1
Выбор действия определяется стратегией агента π(a|s), то есть условным распределением действий в каждом состоянии.
Цель агента состоит в максимизации ожидаемой суммы дисконтированных вознаграждений:
- Gt = Σk=0∞ γk rt+k
где γ ∈ [0, 1] — коэффициент дисконтирования, определяющий относительную важность будущих наград. При γ, близком к 0, агент ориентируется в основном на немедленный выигрыш, а при γ, близком к 1, в большей степени учитывает долгосрочные последствия своих действий.
Основные компоненты
В большинстве методов обучения с подкреплением используются следующие понятия.
Стратегия (policy) определяет, какое действие агент выбирает в каждом состоянии. Стратегия может быть детерминированной или стохастической.
Функция ценности оценивает ожидаемое будущее вознаграждение. Различают ценность состояния <math>V^\pi(s)</math> и ценность пары состояние-действие <math>Q^\pi(s,a)</math>. Эти функции позволяют сравнивать альтернативные действия не только по немедленной награде, но и по их долгосрочному эффекту.
Модель среды описывает вероятности переходов между состояниями и распределение вознаграждений. Если модель известна или может быть достаточно точно выучена, возможны методы планирования. Если модель недоступна, агент учится напрямую из опыта.
Баланс исследования и использования (exploration-exploitation trade-off) — фундаментальная проблема обучения с подкреплением. Агенту необходимо одновременно использовать уже найденные хорошие действия и исследовать новые, которые могут оказаться ещё лучше.
Основные семейства методов
Методы, основанные на функции ценности
Эти методы строят или аппроксимируют функцию ценности, а затем выбирают действия, которые максимизируют ожидаемую награду. Классические примеры — Q-learning и SARSA.
Идея состоит в том, чтобы постепенно уточнять оценки полезности действий на основе наблюдаемого опыта. Такие методы особенно естественны в задачах с дискретным пространством действий, где можно непосредственно сравнивать несколько альтернатив.
Преимущества:
- относительная простота постановки;
- тесная связь с динамическим программированием;
- хорошая интерпретируемость в небольших задачах.
Ограничения:
- трудности при непрерывных действиях;
- необходимость аккуратной аппроксимации в больших пространствах состояний;
- чувствительность к редким вознаграждениям и нестабильному исследованию.
Методы градиентной оптимизации стратегии
Вместо того чтобы оценивать полезность каждого действия отдельно, методы этого класса напрямую параметризуют стратегию и оптимизируют её параметры по градиенту ожидаемого вознаграждения. Такие подходы часто называют policy gradient methods.
Преимущество прямой оптимизации стратегии заключается в том, что она естественно переносится на непрерывные действия и стохастические политики. Недостаток состоит в высокой дисперсии оценок градиента: чтобы понять, улучшается ли стратегия, нередко требуется большой объём опыта.
Методы Actor-critic
Методы Actor-critic объединяют два подхода. Компонент actor отвечает за стратегию, а компонент critic оценивает качество состояний или действий и тем самым направляет обновление стратегии.
Именно это семейство стало одним из центральных в современном глубоком обучении с подкреплением. К нему относятся многие практически важные алгоритмы, включая Proximal Policy Optimization и другие методы, использующие ограниченные по величине обновления стратегии для стабилизации обучения.
Моделе-ориентированные методы
Если агент располагает моделью среды или умеет её выучивать, он может не только реагировать на уже полученный опыт, но и планировать будущие действия. Такой подход характерен для model-based reinforcement learning.
Потенциальное преимущество здесь — более высокая эффективностью по данным: часть опыта можно заменять мысленными прогонками по модели. Однако ошибки модели способны систематически искажать оценку действий и приводить к накоплению смещения.
Пакетное и офлайн-обучение
Во многих реальных приложениях взаимодействовать со средой онлайн дорого, опасно или невозможно. Тогда агент обучается по заранее собранному набору траекторий. Это направление известно как offline reinforcement learning.
Офлайн-режим особенно важен в медицине, промышленном управлении и при дообучении крупных генеративных моделей, когда сбор новых экспериментов ограничен стоимостью или требованиями безопасности.
Связь с современными генеративными моделями
Хотя исторически обучение с подкреплением развивалось в контексте управления и игр, сегодня его идеи активно применяются в посттренировке генеративных моделей. Вместо награды за действие в физической среде используются сигналы качества ответа, предпочтения человека, автоматические рубрики оценки или суррогатные reward-модели.
В этом контексте развиваются такие подходы, как Direct Preference Optimization, Group Relative Policy Optimization и другие алгоритмы оптимизации политики по предпочтениям. Они не всегда воспроизводят классическую схему RL в чистом виде, но сохраняют её основную идею: улучшать поведение модели на основе внешнего сигнала полезности, а не только на основе правдоподобия обучающего текста.
Преимущества и трудности
Обучение с подкреплением привлекательно тем, что позволяет формализовать целенаправленное поведение и учитывать долгосрочные последствия решений. Именно поэтому оно естественно используется там, где качество действия нельзя оценить изолированно от последующих шагов.
В то же время методы обучения с подкреплением сталкиваются с рядом трудностей:
- данные зависят от текущей стратегии агента и потому не являются независимыми;
- награда может быть редкой, шумной или плохо отражать настоящую цель;
- исследование пространства действий требует дополнительных механизмов;
- обучение часто оказывается вычислительно дорогим и нестабильным;
- при неудачно заданной награде агент может находить формально выгодные, но нежелательные стратегии поведения.
Последняя проблема особенно важна в современных задачах выравнивания ИИ: если сигнал награды задаёт цель неточно, система может научиться оптимизировать метрику, не решая содержательную задачу.
Области применения
Методы обучения с подкреплением применяются в самых разных областях:
- управление движением роботов и манипуляторов;
- игровые агенты и самообучающиеся системы принятия решений;
- управление ресурсами и последовательная оптимизация;
- рекомендательные системы и персонализация;
- автоматическая настройка сложных вычислительных систем;
- дообучение языковых моделей и генеративных моделей по предпочтениям.
См. также
- Марковский процесс принятия решений
- Функция ценности
- Обучение по временным различиям
- SARSA
- Actor-critic
- Proximal Policy Optimization
- Direct Preference Optimization
- Group Relative Policy Optimization
Литература
- Sutton R. S., Barto A. G. Reinforcement Learning: An Introduction. 2nd ed. MIT Press, 2018.
- Bertsekas D. P. Dynamic Programming and Optimal Control. Athena Scientific, 2017.
- Kaelbling L. P., Littman M. L., Moore A. W. Reinforcement Learning: A Survey // Journal of Artificial Intelligence Research. 1996. Vol. 4. P. 237-285.
- Szepesvari C. Algorithms for Reinforcement Learning. Morgan and Claypool, 2010.

