Обучение с подкреплением из обратной связи человека (RLHF)

Материал из MachineLearning.

Версия от 11:37, 16 июня 2026; Emil Petrov (Обсуждение | вклад)
(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)
Перейти к: навигация, поиск
Эта статья создана с использованием языковой модели. Автор статьи несёт полную ответственность за её содержание.


Содержание

Обучение с подкреплением из обратной связи человека (RLHF, Reinforcement Learning from Human Feedback) — метод обучения языковых моделей, при котором сигнал обратной связи формируется на основе оценок человека, а не заранее заданной функции потерь. RLHF позволяет согласовать поведение модели с предпочтениями пользователей и является ключевой техникой в разработке современных систем, таких как ChatGPT, Claude и Gemini.

История

Идея использования обратной связи от людей для обучения агентов восходит к работам по обучению с подкреплением 1990-х годов. Применительно к языковым моделям RLHF получил широкое распространение после публикации InstructGPT (Ouyang et al., 2022), где было показано, что относительно небольшая модель, настроенная с помощью RLHF, может значительно превосходить более крупные модели по качеству ответов с точки зрения людей.

Общая схема

Стандартный пайплайн RLHF включает три этапа:

  1. Обучение с учителем (SFT) — дообучение предобученной языковой модели на размеченном наборе данных «вопрос–ответ», собранном с участием разметчиков.
  2. Обучение модели вознаграждения (RM) — обучение отдельной модели предсказывать, какой из двух ответов предпочтёт человек.
  3. Оптимизация политики с помощью RL — обучение языковой модели максимизировать вознаграждение от RM с помощью алгоритмов обучения с подкреплением.

Supervised Fine-Tuning (SFT)

На первом этапе предобученная языковая модель p_\text{pre} дообучается на небольшом корпусе размеченных диалогов. Функция потерь — стандартная кросс-энтропия:

\mathcal{L}_\text{SL}(\theta) = -\sum_{t} \log p_\theta(w_t \mid w_{<t})

Результатом является модель p_\text{SFT}, умеющая отвечать в нужном формате.

Модель вознаграждения

Модель предпочтений Брэдли–Терри

Для каждого запроса x разметчики сравнивают пары ответов (y_w, y_l), где y_w — предпочтительный ответ, y_l — менее предпочтительный. Вероятность предпочтения описывается моделью Брэдли–Терри:

P(y_w \succ y_l \mid x) = \sigma\!\left(r_\phi(x, y_w) - r_\phi(x, y_l)\right)

где r_\phi(x, y) — скалярное вознаграждение, выдаваемое моделью. Функция потерь:

\mathcal{L}_\text{RM}(\phi) = -\mathbb{E}_{(x, y_w, y_l) \sim \mathcal{D}}\!\left[\log \sigma\!\left(r_\phi(x, y_w) - r_\phi(x, y_l)\right)\right]

Оптимизация политики

PPO с KL-регуляризацией

После получения обученной модели вознаграждения r_\phi языковая модель \pi_\theta оптимизируется с помощью алгоритма PPO. Целевой функционал включает KL-штраф, ограничивающий отклонение от SFT-модели:

\max_{\pi_\theta} \mathbb{E}_{x \sim \mathcal{D},\, y \sim \pi_\theta(y|x)}\!\left[r_\phi(x, y)\right] - \beta\, D_\text{KL}\!\left[\pi_\theta(\cdot|x) \,\|\, \pi^\text{SFT}(\cdot|x)\right]

где \beta > 0 — коэффициент регуляризации. KL-штраф предотвращает «reward hacking» — выработку вырожденных стратегий, получающих высокое вознаграждение без реального качества.

Формула PPO CLIP

На практике PPO использует clipped surrogate objective:

L^\text{CLIP}(\theta) = \mathbb{E}_t\!\left[\min\!\left(r_t(\theta)\,A_t,\; \text{clip}(r_t(\theta), 1-\varepsilon, 1+\varepsilon)\,A_t\right)\right]

где r_t(\theta) = \frac{\pi_\theta(a_t|s_t)}{\pi_{\theta_\text{old}}(a_t|s_t)} — отношение вероятностей, A_t — оценка преимущества, \varepsilon — гиперпараметр (обычно 0.1–0.2).

Direct Preference Optimization (DPO)

DPO (Rafailov et al., 2023) — альтернатива RLHF, исключающая явное обучение модели вознаграждения. DPO перепараметризует задачу и оптимизирует политику напрямую по данным предпочтений:

\mathcal{L}_\text{DPO}(\theta) = -\mathbb{E}_{(x,y_w,y_l)}\!\left[\log \sigma\!\left(\beta \log \frac{\pi_\theta(y_w|x)}{\pi_\text{ref}(y_w|x)} - \beta \log \frac{\pi_\theta(y_l|x)}{\pi_\text{ref}(y_l|x)}\right)\right]

DPO проще в реализации и стабильнее в обучении, чем PPO-based RLHF.

RLAIF

RLAIF (Reinforcement Learning from AI Feedback) заменяет разметчиков-людей другой языковой моделью (обычно более мощной). Конституциональный ИИ (Constitutional AI, Anthropic) использует набор принципов, по которым вспомогательная модель сравнивает ответы, формируя обучающие данные для RM.

Проблемы

Reward hacking 
Оптимизированная модель может находить стратегии, получающие высокое вознаграждение без реального улучшения качества (закон Гудхарта).
Дрейф распределения 
Политика отклоняется от распределения, на котором обучена RM, что ухудшает её предсказания.
Стоимость разметки 
Сбор предпочтений людей дорог и медленен; качество зависит от согласованности разметчиков.
Предвзятость разметчиков 
Разметчики могут предпочитать длинные, уверенно звучащие ответы, не связанные с их точностью.

Применения

RLHF применяется при создании:

Примечания

Литература

  • Ouyang, L. et al. Training language models to follow instructions with human feedback // NeurIPS. — 2022.
  • Rafailov, R. et al. Direct Preference Optimization: Your Language Model is Secretly a Reward Model // NeurIPS. — 2023.
  • Bai, Y. et al. Constitutional AI: Harmlessness from AI Feedback // arXiv. — 2022.
  • Sutton, R., Barto, A. Reinforcement Learning: An Introduction. — MIT Press, 2018.