Обучение с подкреплением из обратной связи человека (RLHF)

Материал из MachineLearning.

Версия от 11:37, 16 июня 2026; Emil Petrov (Обсуждение | вклад)

(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)

Эта статья создана с использованием языковой модели. Автор статьи несёт полную ответственность за её содержание.

Содержание

1 История
2 Общая схема
3 Supervised Fine-Tuning (SFT)
4 Модель вознаграждения
- 4.1 Модель предпочтений Брэдли–Терри
5 Оптимизация политики
- 5.1 PPO с KL-регуляризацией
- 5.2 Формула PPO CLIP
6 Direct Preference Optimization (DPO)
7 RLAIF
8 Проблемы
9 Применения
10 Примечания
11 Литература

Обучение с подкреплением из обратной связи человека (RLHF, Reinforcement Learning from Human Feedback) — метод обучения языковых моделей, при котором сигнал обратной связи формируется на основе оценок человека, а не заранее заданной функции потерь. RLHF позволяет согласовать поведение модели с предпочтениями пользователей и является ключевой техникой в разработке современных систем, таких как ChatGPT, Claude и Gemini.

История

Идея использования обратной связи от людей для обучения агентов восходит к работам по обучению с подкреплением 1990-х годов. Применительно к языковым моделям RLHF получил широкое распространение после публикации InstructGPT (Ouyang et al., 2022), где было показано, что относительно небольшая модель, настроенная с помощью RLHF, может значительно превосходить более крупные модели по качеству ответов с точки зрения людей.

Общая схема

Стандартный пайплайн RLHF включает три этапа:

Обучение с учителем (SFT) — дообучение предобученной языковой модели на размеченном наборе данных «вопрос–ответ», собранном с участием разметчиков.
Обучение модели вознаграждения (RM) — обучение отдельной модели предсказывать, какой из двух ответов предпочтёт человек.
Оптимизация политики с помощью RL — обучение языковой модели максимизировать вознаграждение от RM с помощью алгоритмов обучения с подкреплением.

Supervised Fine-Tuning (SFT)

На первом этапе предобученная языковая модель $p_\text{pre}$ дообучается на небольшом корпусе размеченных диалогов. Функция потерь — стандартная кросс-энтропия:

$\mathcal{L}_\text{SL}(\theta) = -\sum_{t} \log p_\theta(w_t \mid w_{<t})$

Результатом является модель $p_\text{SFT}$ , умеющая отвечать в нужном формате.

Модель вознаграждения

Модель предпочтений Брэдли–Терри

Для каждого запроса $x$ разметчики сравнивают пары ответов $(y_w, y_l)$ , где $y_w$ — предпочтительный ответ, $y_l$ — менее предпочтительный. Вероятность предпочтения описывается моделью Брэдли–Терри:

$P(y_w \succ y_l \mid x) = \sigma\!\left(r_\phi(x, y_w) - r_\phi(x, y_l)\right)$

где $r_\phi(x, y)$ — скалярное вознаграждение, выдаваемое моделью. Функция потерь:

$\mathcal{L}_\text{RM}(\phi) = -\mathbb{E}_{(x, y_w, y_l) \sim \mathcal{D}}\!\left[\log \sigma\!\left(r_\phi(x, y_w) - r_\phi(x, y_l)\right)\right]$

Оптимизация политики

PPO с KL-регуляризацией

После получения обученной модели вознаграждения $r_\phi$ языковая модель $\pi_\theta$ оптимизируется с помощью алгоритма PPO. Целевой функционал включает KL-штраф, ограничивающий отклонение от SFT-модели:

$\max_{\pi_\theta} \mathbb{E}_{x \sim \mathcal{D},\, y \sim \pi_\theta(y|x)}\!\left[r_\phi(x, y)\right] - \beta\, D_\text{KL}\!\left[\pi_\theta(\cdot|x) \,\|\, \pi^\text{SFT}(\cdot|x)\right]$

где $\beta > 0$ — коэффициент регуляризации. KL-штраф предотвращает «reward hacking» — выработку вырожденных стратегий, получающих высокое вознаграждение без реального качества.

Формула PPO CLIP

На практике PPO использует clipped surrogate objective:

$L^\text{CLIP}(\theta) = \mathbb{E}_t\!\left[\min\!\left(r_t(\theta)\,A_t,\; \text{clip}(r_t(\theta), 1-\varepsilon, 1+\varepsilon)\,A_t\right)\right]$

где $r_t(\theta) = \frac{\pi_\theta(a_t|s_t)}{\pi_{\theta_\text{old}}(a_t|s_t)}$ — отношение вероятностей, $A_t$ — оценка преимущества, $\varepsilon$ — гиперпараметр (обычно 0.1–0.2).

Direct Preference Optimization (DPO)

DPO (Rafailov et al., 2023) — альтернатива RLHF, исключающая явное обучение модели вознаграждения. DPO перепараметризует задачу и оптимизирует политику напрямую по данным предпочтений:

$\mathcal{L}_\text{DPO}(\theta) = -\mathbb{E}_{(x,y_w,y_l)}\!\left[\log \sigma\!\left(\beta \log \frac{\pi_\theta(y_w|x)}{\pi_\text{ref}(y_w|x)} - \beta \log \frac{\pi_\theta(y_l|x)}{\pi_\text{ref}(y_l|x)}\right)\right]$

DPO проще в реализации и стабильнее в обучении, чем PPO-based RLHF.

RLAIF

RLAIF (Reinforcement Learning from AI Feedback) заменяет разметчиков-людей другой языковой моделью (обычно более мощной). Конституциональный ИИ (Constitutional AI, Anthropic) использует набор принципов, по которым вспомогательная модель сравнивает ответы, формируя обучающие данные для RM.

Проблемы

Reward hacking: Оптимизированная модель может находить стратегии, получающие высокое вознаграждение без реального улучшения качества (закон Гудхарта).
Дрейф распределения: Политика отклоняется от распределения, на котором обучена RM, что ухудшает её предсказания.
Стоимость разметки: Сбор предпочтений людей дорог и медленен; качество зависит от согласованности разметчиков.
Предвзятость разметчиков: Разметчики могут предпочитать длинные, уверенно звучащие ответы, не связанные с их точностью.

Применения

RLHF применяется при создании:

ассистентов на основе больших языковых моделей (ChatGPT, Claude, Gemini);
систем суммаризации текста;
моделей перевода с улучшенным качеством;
агентов для диалоговых систем.

Примечания

Литература

Ouyang, L. et al. Training language models to follow instructions with human feedback // NeurIPS. — 2022.
Rafailov, R. et al. Direct Preference Optimization: Your Language Model is Secretly a Reward Model // NeurIPS. — 2023.
Bai, Y. et al. Constitutional AI: Harmlessness from AI Feedback // arXiv. — 2022.
Sutton, R., Barto, A. Reinforcement Learning: An Introduction. — MIT Press, 2018.

Источник — «http://machinelearning.ru/wiki/index.php?title=%D0%9E%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B5_%D1%81_%D0%BF%D0%BE%D0%B4%D0%BA%D1%80%D0%B5%D0%BF%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5%D0%BC_%D0%B8%D0%B7_%D0%BE%D0%B1%D1%80%D0%B0%D1%82%D0%BD%D0%BE%D0%B9_%D1%81%D0%B2%D1%8F%D0%B7%D0%B8_%D1%87%D0%B5%D0%BB%D0%BE%D0%B2%D0%B5%D0%BA%D0%B0_%28RLHF%29»

Категории: Машинное обучение | Обучение с подкреплением | Языковые модели