RubricRL

Материал из MachineLearning.

Версия от 11:25, 16 июня 2026; Ilia Prokofev (Обсуждение | вклад)

(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)

Статья написана с использованием LLM OpenAI GPT-5.4 и проверена участником Ilia Prokofev 15:25, 16 июня 2026 (MSD)

Rubrics as Rewards: Reinforcement Learning Beyond Verifiable Domains — исследовательская работа команды Scale AI, посвящённая посттренировке больших языковых моделей в задачах, где нет единственного легко проверяемого правильного ответа. Авторы предлагают использовать не попарные предпочтения и не единую непрозрачную reward model, а структурированные рубрики — наборы явных критериев качества, которые затем превращаются в reward-сигнал для обучения с подкреплением.

Работа была опубликована командой Scale Labs 23 июля 2025 года. Авторы: Anisha Gunjal, Anthony Wang, Elaine Lau, Vaskar Nath, Bing Liu, Sean M. Hendryx. В статье этот подход называется Rubrics as Rewards (RaR).

Содержание

1 Постановка проблемы
2 Основная идея
3 Формализация
- 3.1 Явная агрегация
- 3.2 Неявная агрегация
4 Связь с RLVR
5 Как строятся рубрики
6 Обучение
7 Эксперименты
8 Почему это важно для alignment
9 Ограничения
10 Связь с другими работами Scale AI
11 См. также
12 Ссылки
13 Литература

Постановка проблемы

В задачах типа RLVR модель можно обучать по объективной проверке результата: например, по точному совпадению ответа в математике или по прохождению тестов в программировании. Однако во многих реальных доменах — медицине, науке, аналитике, рекомендациях — качество ответа определяется сразу несколькими факторами:

фактической корректностью;
полнотой;
качеством рассуждения;
структурой и ясностью;
отсутствием типичных ошибок и опасных пропусков.

Для таких задач простая verifiable reward часто отсутствует. Стандартный обходной путь — RLHF с preference data или reward model. Авторы RaR считают, что у этого подхода есть две слабости:

reward-сигнал получается непрозрачным;
модель может переобучаться на поверхностные корреляции вроде длины ответа, стиля или форматирования.

Поэтому работа предлагает промежуточный вариант между RLVR и RLHF: reward строится из явных, человекочитаемых критериев, но при этом остаётся пригодным для on-policy RL.

Основная идея

Пусть задан запрос x и сгенерированный моделью ответ y. Вместо одного скалярного сигнала качества вводится набор rubric items:

$\mathcal{R}(x)=\{(w_1,c_1), (w_2,c_2), \dots, (w_M,c_M)\}$

Здесь $c_i$ — отдельный критерий качества, а $w_i$ — его вес. Каждый критерий должен быть самодостаточным и проверяемым отдельно от остальных. Например, рубрика может требовать:

упомянуть конкретный риск терапии;
сравнить две альтернативы;
сослаться на определённый механизм действия;
явно избежать опасного упрощения;
не пропустить ключевое противопоказание.

Таким образом, reward разлагается на набор субцелей, более близких к человеческому пониманию хорошего ответа.

Формализация

В статье рассматриваются два способа агрегировать rubric-based reward.

Явная агрегация

В explicit-схеме каждый критерий оценивается отдельно. Для каждого $c_i$ вводится бинарная функция корректности:

$f_i(x,y)\in\{0,1\}$

Она показывает, удовлетворяет ли ответ $y$ критерию $c_i$ для запроса $x$ . Тогда итоговая reward вычисляется как нормированная взвешенная сумма:

$R_{\mathrm{explicit}}(x,y)=\frac{\sum_{i=1}^{M} w_i f_i(x,y)}{\sum_{i=1}^{M} w_i}$

Такая нормировка нужна для того, чтобы reward оставалась сопоставимой между запросами с разным числом критериев и разными весами.

Неявная агрегация

Во второй схеме рубрика не раскладывается на отдельные бинарные решения при вычислении финального reward. Вместо этого judge-модель получает сразу запрос, ответ и весь список критериев, после чего выдаёт одно итоговое число:

$R_{\mathrm{implicit}}(x,y)=J\bigl(x,y,\mathcal{R}(x)\bigr)$

Здесь $J$ — LLM-as-a-judge, который выполняет holistic evaluation по полной рубрике. Такой способ менее прозрачен на уровне отдельного шага вычисления, но, как показывают авторы, на практике часто лучше улавливает баланс между критериями, чем фиксированная ручная формула.

Связь с RLVR

Одна из важных идей статьи состоит в том, что RaR можно рассматривать как обобщение RLVR. Если оставить только один критерий, дать ему единичный вес и свести проверку к обычной binary correctness function, получится частный случай классической verifiable reward:

$R_{\mathrm{RLVR}}(x,y)=f(x,y)$

Отсюда следует, что RaR не отрицает RLVR, а расширяет его на ситуации, где правильность ответа многомерна и не сводится к одному exact match.

Это удобная мысль для alignment: вместо перехода от объективной проверки сразу к непрозрачным предпочтениям можно ввести промежуточный слой — явные критерии, которые всё ещё интерпретируемы и машинно применимы.

Как строятся рубрики

Авторы задают четыре принципа хорошей рубрики.

Grounded in expert guidance. Рубрики должны опираться на сильные reference answers, написанные людьми или более мощными моделями. Это помогает зафиксировать, какие факты, шаги рассуждения и выводы действительно существенны.

Comprehensive coverage. Рубрики должны охватывать несколько измерений качества: точность, логику, полноту, стиль и типичные ошибки. В статье отдельно подчёркивается полезность negative criteria и pitfall-критериев.

Semantic weighting. Разные критерии имеют разную важность. Поэтому авторы используют семантические категории вроде Essential, Important, Optional и Pitfall, а затем переводят их в веса.

Self-contained evaluation. Каждый критерий должен быть написан так, чтобы его можно было проверить отдельно, не опираясь на скрытый контекст или внешнюю экспертизу.

В экспериментах рубрики генерировались автоматически сильными моделями, но обязательно с опорой на reference answers как прокси экспертного знания.

Обучение

После построения рубрики reward используется внутри on-policy RL-контура. В статье policy update выполняется алгоритмом Group Relative Policy Optimization (GRPO):

текущая policy генерирует ответы;
judge-модель оценивает их по rubric-based reward;
полученные reward используются для обновления policy.

Тем самым RaR не является отдельным RL-алгоритмом наподобие Proximal Policy Optimization или GRPO. Это скорее способ спецификации reward-сигнала, который можно подставлять в существующие методы оптимизации политики.

Эксперименты

Авторы проверяют подход на двух датасетах:

RaR-Medical-20k — около 20 тысяч медицинских запросов;
RaR-Science-20k — около 20 тысяч научных запросов, согласованных с GPQA Diamond.

Базовой policy служит Qwen2.5-7B, а judge-моделью в основных экспериментах выступает gpt-4o-mini. Сравниваются несколько вариантов reward:

Simple-Likert — judge выдаёт простой Likert score;
Reference-Likert — judge сравнивает ответ с сильным reference answer;
Predefined-RaR — фиксированная, не prompt-specific рубрика;
RaR-Explicit — prompt-specific рубрика с явной агрегацией;
RaR-Implicit — prompt-specific рубрика с holistic aggregation.

Согласно статье, лучший вариант — RaR-Implicit — даёт заметный выигрыш по сравнению с простыми Likert-based baseline'ами. На HealthBench-1k авторы сообщают улучшение до 28% относительно Simple-Likert. В таблице статьи RaR-Implicit на GPT-4o rubrics достигает score 0.3194 против 0.2489 у Simple-Likert.

Почему это важно для alignment

Подход интересен не только как инженерная эвристика, но и как более прозрачная философия посттренировки.

В RLHF человек обычно сообщает, какой из двух ответов лучше. Это удобно, но не раскрывает структуру предпочтения. В RaR человек или сильная модель фактически описывает, каким именно должен быть хороший ответ. За счёт этого:

reward становится более интерпретируемой;
проще обнаруживать reward hacking;
легче анализировать, по каким критериям модель недоучилась;
меньшие judge-модели могут лучше приближать человеческие оценки, если им дана хорошая rubric structure.

Scale AI отдельно подчёркивает, что rubric-guided judging улучшает согласование judge-моделей с человеческими предпочтениями по сравнению с чистым Likert scoring.

Ограничения

Работа не утверждает, что rubrics решают все проблемы alignment.

Во-первых, качество reward по-прежнему зависит от качества judge-модели. Во-вторых, плохая или неполная рубрика может так же плохо специфицировать цель, как и слабая reward model. В-третьих, автоматическая генерация хороших pitfall-критериев остаётся трудной задачей. В ablation-результатах авторы отмечают, что negative criteria и weighting не всегда дают ожидаемый прирост, а ключевую роль играет именно prompt-specific и expert-guided характер рубрики.

Иными словами, RaR не устраняет задачу reward design, а делает её более явной и управляемой.

Связь с другими работами Scale AI

Подход RaR логически сочетается с более поздними rubric-based инициативами Scale AI. В частности, в работе RESEARCHRUBRICS: A Benchmark of Prompts and Rubrics for Evaluating Deep Research Agents (2025) команда Scale AI использует уже не training-time reward, а rubric-based evaluation для open-ended deep research systems. Там основная идея та же: качество сложного ответа лучше описывать через fine-grained criteria, чем через одну грубую итоговую оценку.

Это показывает, что для Scale AI rubrics выступают не разовой эвристикой, а общей исследовательской рамкой для alignment, judging и evaluation.

См. также

Ссылки

Литература

Gunjal A., Wang A., Lau E., Nath V., Liu B., Hendryx S. M. Rubrics as Rewards: Reinforcement Learning Beyond Verifiable Domains. Scale Labs, 2025. [1]
Siegel M., The Scale Research Team. Using Rubrics to Build Better Models. Scale AI Blog, 2 September 2025. [2]
Sharma M. et al. RESEARCHRUBRICS: A Benchmark of Prompts and Rubrics for Evaluating Deep Research Agents. Scale AI, 2025. [3]

Источник — «http://machinelearning.ru/wiki/index.php?title=RubricRL»

Категории: Машинное обучение | Искусственный интеллект | Большие языковые модели