Конституционный искусственный интеллект

Материал из MachineLearning.

Версия от 18:08, 30 июня 2026; Marina Aleksandrova (Обсуждение | вклад)

(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)

Конституционный искусственный интеллект (англ. Constitutional AI, CAI) — подход к выравниванию и безопасности искусственного интеллекта, при котором желательное поведение модели задаётся через явным образом сформулированный набор принципов, правил и ценностных ориентиров — «конституцию». В такой схеме модель обучается не только на примерах правильных и неправильных ответов, но и на текстовом описании того, каким нормам она должна следовать.^[1]

Подход получил известность прежде всего после работ компании Anthropic, однако в более широком смысле термин употребляется для обозначения методов, в которых нормативные требования к большой языковой модели задаются в виде отдельной спецификации поведения.^[1] Конституционный ИИ обычно рассматривается как один из способов масштабируемого надзора над мощными моделями, поскольку он позволяет частично заменить дорогостоящую человеческую разметку автоматизированной критикой и оценкой со стороны другой модели или той же модели в специальном режиме.^[1]

Содержание

1 История
2 Основные идеи
3 Типичный конвейер обучения
- 3.1 Самокритика и самопересмотр
- 3.2 Обучение по предпочтениям
4 RLAIF
5 Формирование конституции
6 Место среди других направлений
7 Практическое значение
8 Ограничения и уязвимости
9 Конституционный ИИ, интерпретируемость и model specifications
10 Научные дискуссии
11 См. также
12 Примечания
13 Литература
14 Ссылки

История

Предпосылки конституционного ИИ связаны с развитием методов обучения по предпочтениям человека, прежде всего обучения с подкреплением на основе обратной связи человека (англ. Reinforcement Learning from Human Feedback, RLHF). В работах по InstructGPT и сходных системах полезное и безопасное поведение модели формировалось на основе демонстраций и сравнений ответов, размеченных людьми.^[1]^[1]

Ограничения RLHF — высокая стоимость разметки, трудности масштабирования и зависимость от предпочтений конкретных групп аннотаторов — стимулировали поиск методов, в которых человек задаёт не множество частных оценок, а более общие нормативные принципы.^[1] В 2022 году в работе Constitutional AI: Harmlessness from AI Feedback была предложена схема, где прямой человеческий вклад сводится главным образом к составлению списка принципов, после чего существенная часть критики, пересмотра и попарного сравнения ответов делегируется самой модели.^[1]

В дальнейшем направление стало развиваться в нескольких линиях: сопоставление RLAIF и RLHF, исследование коротких общих и длинных детализированных конституций, а также попытки формировать конституцию на основе общественного участия, а не только решений разработчика.^[1]^[1]^[1]

Основные идеи

Центральная идея конституционного ИИ состоит в том, что требования к поведению модели должны быть заданы не только неявно через обучающие данные, но и явно — в виде набора текстовых норм. Эти нормы могут включать требования не способствовать причинению вреда, быть честной, учитывать контекст, объяснять отказы, избегать дискриминационных формулировок и предлагать безопасные альтернативы опасным действиям.^[1]

Такой подход объединяет две идеи:

нормативное задание поведения через естественно-языковую конституцию;
использование ИИ-обратной связи для критики, исправления и ранжирования ответов в соответствии с этой конституцией.^[1]

За счёт этого конституционный ИИ занимает промежуточное положение между полностью ручным управлением поведением модели и полностью неявным обучением на статистических закономерностях корпуса.

Типичный конвейер обучения

В исходной схеме конституционного ИИ обучение включает две взаимосвязанные стадии.^[1]

Самокритика и самопересмотр

На первой стадии модель генерирует исходный ответ на запрос пользователя. Затем ей предъявляется один из конституционных принципов, после чего она должна:

проанализировать собственный ответ;
указать, в чём он нарушает или может нарушать заданный принцип;
предложить исправленную версию.

После этого модель дополнительно обучается на исправленных ответах как на более предпочтительных образцах.^[1]

Обучение по предпочтениям

На второй стадии применяется обучение по сигналу предпочтений: модель генерирует несколько вариантов ответа, а отдельный оценщик выбирает, какой из них лучше согласуется с конституцией. На основе таких сравнений обучается модель предпочтений, после чего основная система дообучается с использованием обучения с подкреплением.^[1]

RLAIF

Обучение с подкреплением на основе обратной связи ИИ (англ. Reinforcement Learning from AI Feedback, RLAIF) — механизм, тесно связанный с конституционным ИИ. В RLAIF роль источника предпочтений частично или полностью играет не человек, а сама модель либо другая модель-оценщик, ориентированная на текст принципов.^[1]

По сравнению с RLHF RLAIF отличается прежде всего источником сигнала:

в RLHF ответы сравнивают и ранжируют люди;
в RLAIF сравнения формируются ИИ-оценщиком, настроенным на заданную конституцию.^[1]

Преимущество RLAIF состоит в лучшей масштабируемости и меньшей стоимости. Ограничение состоит в том, что ошибки и предвзятости модели-оценщика могут переноситься в итоговую систему. В сравнительных исследованиях было показано, что RLAIF на ряде задач может давать качество, сопоставимое с RLHF, хотя полностью не устраняет проблему надёжности надзора.^[1]

Формирование конституции

Одним из ключевых вопросов является то, как именно составляется конституция модели.

Конституции, задаваемые разработчиками

В ранних работах по конституционному ИИ принципы формулировались исследовательской группой и отражали сочетание соображений безопасности, этики и удобства использования.^[1] Такой подход даёт высокую управляемость и позволяет быстро изменять правила, однако вызывает вопрос о легитимности ценностного выбора: фактически поведение модели задаётся организацией-разработчиком.

Коллективное участие

Альтернативой является коллективный конституционный ИИ (англ. Collective Constitutional AI), где принципы вырабатываются с участием более широкой аудитории. В соответствующей работе была предложена процедура отбора целевой группы, сбора принципов, агрегации предложений и обучения модели на их основе.^[1]

Такой подход стремится уменьшить зависимость поведения модели от ценностей одной компании, но создаёт новые трудности: необходимо решать, кого считать представительной группой, как агрегировать противоречивые мнения и как соотносить локальные общественные ожидания с универсальными требованиями безопасности.

Общие и частные принципы

Важна и степень детализации конституции. Короткие общие формулы могут обеспечивать более широкое обобщение, тогда как длинные списки частных правил дают более точный контроль над конкретными типами нежелательного поведения.^[1] Исследования показывают, что оба подхода могут быть полезны, но решают разные задачи.^[1]

Место среди других направлений

Связь с выравниванием ИИ

Конституционный ИИ относится к методам внешнего выравнивания, поскольку задаёт наблюдаемое направление поведения модели через явную спецификацию желательных норм.^[1] Однако он не гарантирует решения проблемы внутреннего выравнивания, то есть не даёт полной уверенности в том, что внутренние механизмы модели действительно соответствуют этим нормам во всех ситуациях.

Связь с безопасностью ИИ

Для задач безопасности конституционный подход ценен тем, что позволяет систематически задавать запреты и ограничения на опасные формы поведения. Исходные работы были сосредоточены на снижении вредоносных ответов без превращения модели в полностью уклончивого собеседника.^[1]

Связь с управлением поведением языковых моделей

Конституционный ИИ тесно связан с более широким классом методов, где поведение модели регулируется через письменные правила, приоритеты и ограничения. В этом смысле он близок к подходам, использующим модельные спецификации (англ. model specifications) — документы, описывающие, как модель должна вести себя в различных типах ситуаций, какие цели являются приоритетными и как разрешать конфликты между ними.

Практическое значение

Практическая значимость конституционного ИИ связана с несколькими обстоятельствами.

Во-первых, он позволяет уменьшить зависимость от ручной разметки и ускоряет модификацию поведенческих ограничений модели.^[1]

Во-вторых, он делает ценностные предпосылки системы более явными: вместо того чтобы нормы были скрыты в весах модели и обучающих примерах, они фиксируются в отдельном документе, который можно обсуждать, сравнивать и пересматривать.

В-третьих, конституционные принципы могут использоваться не только при постобучении генеративной модели, но и в защитных подсистемах, например при построении фильтров и классификаторов безопасности.^[1]

Ограничения и уязвимости

Jailbreak-атаки

Одной из основных практических проблем являются jailbreak-атаки — стратегии обхода встроенных ограничений, при которых пользователь подбирает такие формулировки запроса, чтобы модель нарушила свои правила. Конституция может повысить устойчивость системы, но сама по себе не гарантирует полной защиты.^[1]

Пределы самооценки

Если модель сама участвует в критике и оценке собственных ответов, возникает проблема надёжности такого надзора. Модель может не распознавать некоторые типы нарушений, повторять собственные предвзятости или формировать поверхностно правдоподобные, но неполные объяснения.^[1]

Формальное следование принципам

Ещё одно ограничение связано с риском формального соблюдения правил без устойчивого содержательного усвоения их смысла. Модель может научиться воспроизводить правильный стиль отказа или ссылки на нормы, но при изменении контекста, сложной композиции инструкций или в новых доменах всё равно выдавать нежелательные ответы. Это делает необходимыми внешние проверки, red teaming и независимые оценки безопасности.^[1]

Нормативная неопределённость

Конституция всегда является результатом выбора ценностей, а значит, не может считаться полностью нейтральной. Между различными культурами, правовыми системами и общественными группами возможны расхождения относительно того, какие именно принципы следует считать приоритетными.^[1]

Конституционный ИИ, интерпретируемость и model specifications

Конституционный ИИ связан с интерпретируемостью прежде всего на уровне внешних норм. Он делает более прозрачным вопрос о том, по каким принципам модель должна оцениваться и какие типы поведения считаются желательными либо нежелательными. В этом смысле явная конституция повышает аудируемость системы и облегчает общественное обсуждение её целей.

Однако такая прозрачность не означает полной интерпретируемости внутренних механизмов модели. Конституция описывает нормативный уровень, но не раскрывает, каким образом конкретные представления, признаки и внутренние вычисления приводят к итоговому ответу. Поэтому конституционный ИИ обычно рассматривается как дополнение к исследованиям механистической интерпретируемости, а не как их замена.^[1]

Сходную роль играют и model specifications: они задают письменную спецификацию допустимого поведения, приоритетов и правил разрешения конфликтов. Различие состоит в том, что конституционный ИИ обычно подразумевает не только наличие такого документа, но и его прямое использование в процедуре постобучения, самокритики и ИИ-оценивания.

Научные дискуссии

Среди основных дискуссионных вопросов выделяются следующие:

достаточно ли одной общей конституции или необходимы многочисленные частные правила;^[1]
может ли коллективное участие действительно повысить легитимность модели или лишь переносит проблему на уровень отбора участников и методов агрегации мнений;^[1]
в какой степени ИИ-обратная связь способна заменить человеческий надзор без потери качества и надёжности;^[1]
можно ли считать письменную конституцию адекватной формой задания сложных моральных и правовых норм для статистической модели.

См. также

Примечания

Литература

Bai Y., Jones A., Ndousse K. et al. Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback. arXiv:2204.05862, 2022.
Bai Y., Kadavath S., Kundu S. et al. Constitutional AI: Harmlessness from AI Feedback. arXiv:2212.08073, 2022.
Huang S., Siddarth D., Lovitt L. et al. Collective Constitutional AI: Aligning a Language Model with Public Input. In: Proceedings of the 2024 ACM Conference on Fairness, Accountability, and Transparency, 2024.
Kundu S., Bai Y., Kadavath S. et al. Specific versus General Principles for Constitutional AI. arXiv:2310.13798, 2023.
Lee H., Phatale S., Mansoor H. et al. RLAIF vs. RLHF: Scaling Reinforcement Learning from Human Feedback with AI Feedback. In: Proceedings of the 41st International Conference on Machine Learning, PMLR 235, 2024.
Ouyang L., Wu J., Jiang X. et al. Training Language Models to Follow Instructions with Human Feedback. arXiv:2203.02155, 2022.
Perez E., Ringer S., Lukošiūtė K. et al. Discovering Language Model Behaviors with Model-Written Evaluations. arXiv:2212.09251, 2022.
Sharma M., Tong M., Mu J. et al. Constitutional Classifiers: Defending against Universal Jailbreaks across Thousands of Hours of Red Teaming. arXiv:2501.18837, 2025.

Ссылки

Источник — «http://machinelearning.ru/wiki/index.php?title=%D0%9A%D0%BE%D0%BD%D1%81%D1%82%D0%B8%D1%82%D1%83%D1%86%D0%B8%D0%BE%D0%BD%D0%BD%D1%8B%D0%B9_%D0%B8%D1%81%D0%BA%D1%83%D1%81%D1%81%D1%82%D0%B2%D0%B5%D0%BD%D0%BD%D1%8B%D0%B9_%D0%B8%D0%BD%D1%82%D0%B5%D0%BB%D0%BB%D0%B5%D0%BA%D1%82»