Конституционный искусственный интеллект
Материал из MachineLearning.
Конституционный искусственный интеллект (англ. Constitutional AI, CAI) — подход к выравниванию и безопасности искусственного интеллекта, при котором желательное поведение модели задаётся через явным образом сформулированный набор принципов, правил и ценностных ориентиров — «конституцию». В такой схеме модель обучается не только на примерах правильных и неправильных ответов, но и на текстовом описании того, каким нормам она должна следовать.[1]
Подход получил известность прежде всего после работ компании Anthropic, однако в более широком смысле термин употребляется для обозначения методов, в которых нормативные требования к большой языковой модели задаются в виде отдельной спецификации поведения.[1] Конституционный ИИ обычно рассматривается как один из способов масштабируемого надзора над мощными моделями, поскольку он позволяет частично заменить дорогостоящую человеческую разметку автоматизированной критикой и оценкой со стороны другой модели или той же модели в специальном режиме.[1]
История
Предпосылки конституционного ИИ связаны с развитием методов обучения по предпочтениям человека, прежде всего обучения с подкреплением на основе обратной связи человека (англ. Reinforcement Learning from Human Feedback, RLHF). В работах по InstructGPT и сходных системах полезное и безопасное поведение модели формировалось на основе демонстраций и сравнений ответов, размеченных людьми.[1][1]
Ограничения RLHF — высокая стоимость разметки, трудности масштабирования и зависимость от предпочтений конкретных групп аннотаторов — стимулировали поиск методов, в которых человек задаёт не множество частных оценок, а более общие нормативные принципы.[1] В 2022 году в работе Constitutional AI: Harmlessness from AI Feedback была предложена схема, где прямой человеческий вклад сводится главным образом к составлению списка принципов, после чего существенная часть критики, пересмотра и попарного сравнения ответов делегируется самой модели.[1]
В дальнейшем направление стало развиваться в нескольких линиях: сопоставление RLAIF и RLHF, исследование коротких общих и длинных детализированных конституций, а также попытки формировать конституцию на основе общественного участия, а не только решений разработчика.[1][1][1]
Основные идеи
Центральная идея конституционного ИИ состоит в том, что требования к поведению модели должны быть заданы не только неявно через обучающие данные, но и явно — в виде набора текстовых норм. Эти нормы могут включать требования не способствовать причинению вреда, быть честной, учитывать контекст, объяснять отказы, избегать дискриминационных формулировок и предлагать безопасные альтернативы опасным действиям.[1]
Такой подход объединяет две идеи:
- нормативное задание поведения через естественно-языковую конституцию;
- использование ИИ-обратной связи для критики, исправления и ранжирования ответов в соответствии с этой конституцией.[1]
За счёт этого конституционный ИИ занимает промежуточное положение между полностью ручным управлением поведением модели и полностью неявным обучением на статистических закономерностях корпуса.
Типичный конвейер обучения
В исходной схеме конституционного ИИ обучение включает две взаимосвязанные стадии.[1]
Самокритика и самопересмотр
На первой стадии модель генерирует исходный ответ на запрос пользователя. Затем ей предъявляется один из конституционных принципов, после чего она должна:
- проанализировать собственный ответ;
- указать, в чём он нарушает или может нарушать заданный принцип;
- предложить исправленную версию.
После этого модель дополнительно обучается на исправленных ответах как на более предпочтительных образцах.[1]
Обучение по предпочтениям
На второй стадии применяется обучение по сигналу предпочтений: модель генерирует несколько вариантов ответа, а отдельный оценщик выбирает, какой из них лучше согласуется с конституцией. На основе таких сравнений обучается модель предпочтений, после чего основная система дообучается с использованием обучения с подкреплением.[1]
RLAIF
Обучение с подкреплением на основе обратной связи ИИ (англ. Reinforcement Learning from AI Feedback, RLAIF) — механизм, тесно связанный с конституционным ИИ. В RLAIF роль источника предпочтений частично или полностью играет не человек, а сама модель либо другая модель-оценщик, ориентированная на текст принципов.[1]
По сравнению с RLHF RLAIF отличается прежде всего источником сигнала:
- в RLHF ответы сравнивают и ранжируют люди;
- в RLAIF сравнения формируются ИИ-оценщиком, настроенным на заданную конституцию.[1]
Преимущество RLAIF состоит в лучшей масштабируемости и меньшей стоимости. Ограничение состоит в том, что ошибки и предвзятости модели-оценщика могут переноситься в итоговую систему. В сравнительных исследованиях было показано, что RLAIF на ряде задач может давать качество, сопоставимое с RLHF, хотя полностью не устраняет проблему надёжности надзора.[1]
Формирование конституции
Одним из ключевых вопросов является то, как именно составляется конституция модели.
Конституции, задаваемые разработчиками
В ранних работах по конституционному ИИ принципы формулировались исследовательской группой и отражали сочетание соображений безопасности, этики и удобства использования.[1] Такой подход даёт высокую управляемость и позволяет быстро изменять правила, однако вызывает вопрос о легитимности ценностного выбора: фактически поведение модели задаётся организацией-разработчиком.
Коллективное участие
Альтернативой является коллективный конституционный ИИ (англ. Collective Constitutional AI), где принципы вырабатываются с участием более широкой аудитории. В соответствующей работе была предложена процедура отбора целевой группы, сбора принципов, агрегации предложений и обучения модели на их основе.[1]
Такой подход стремится уменьшить зависимость поведения модели от ценностей одной компании, но создаёт новые трудности: необходимо решать, кого считать представительной группой, как агрегировать противоречивые мнения и как соотносить локальные общественные ожидания с универсальными требованиями безопасности.
Общие и частные принципы
Важна и степень детализации конституции. Короткие общие формулы могут обеспечивать более широкое обобщение, тогда как длинные списки частных правил дают более точный контроль над конкретными типами нежелательного поведения.[1] Исследования показывают, что оба подхода могут быть полезны, но решают разные задачи.[1]
Место среди других направлений
Связь с выравниванием ИИ
Конституционный ИИ относится к методам внешнего выравнивания, поскольку задаёт наблюдаемое направление поведения модели через явную спецификацию желательных норм.[1] Однако он не гарантирует решения проблемы внутреннего выравнивания, то есть не даёт полной уверенности в том, что внутренние механизмы модели действительно соответствуют этим нормам во всех ситуациях.
Связь с безопасностью ИИ
Для задач безопасности конституционный подход ценен тем, что позволяет систематически задавать запреты и ограничения на опасные формы поведения. Исходные работы были сосредоточены на снижении вредоносных ответов без превращения модели в полностью уклончивого собеседника.[1]
Связь с управлением поведением языковых моделей
Конституционный ИИ тесно связан с более широким классом методов, где поведение модели регулируется через письменные правила, приоритеты и ограничения. В этом смысле он близок к подходам, использующим модельные спецификации (англ. model specifications) — документы, описывающие, как модель должна вести себя в различных типах ситуаций, какие цели являются приоритетными и как разрешать конфликты между ними.
Практическое значение
Практическая значимость конституционного ИИ связана с несколькими обстоятельствами.
Во-первых, он позволяет уменьшить зависимость от ручной разметки и ускоряет модификацию поведенческих ограничений модели.[1]
Во-вторых, он делает ценностные предпосылки системы более явными: вместо того чтобы нормы были скрыты в весах модели и обучающих примерах, они фиксируются в отдельном документе, который можно обсуждать, сравнивать и пересматривать.
В-третьих, конституционные принципы могут использоваться не только при постобучении генеративной модели, но и в защитных подсистемах, например при построении фильтров и классификаторов безопасности.[1]
Ограничения и уязвимости
Jailbreak-атаки
Одной из основных практических проблем являются jailbreak-атаки — стратегии обхода встроенных ограничений, при которых пользователь подбирает такие формулировки запроса, чтобы модель нарушила свои правила. Конституция может повысить устойчивость системы, но сама по себе не гарантирует полной защиты.[1]
Пределы самооценки
Если модель сама участвует в критике и оценке собственных ответов, возникает проблема надёжности такого надзора. Модель может не распознавать некоторые типы нарушений, повторять собственные предвзятости или формировать поверхностно правдоподобные, но неполные объяснения.[1]
Формальное следование принципам
Ещё одно ограничение связано с риском формального соблюдения правил без устойчивого содержательного усвоения их смысла. Модель может научиться воспроизводить правильный стиль отказа или ссылки на нормы, но при изменении контекста, сложной композиции инструкций или в новых доменах всё равно выдавать нежелательные ответы. Это делает необходимыми внешние проверки, red teaming и независимые оценки безопасности.[1]
Нормативная неопределённость
Конституция всегда является результатом выбора ценностей, а значит, не может считаться полностью нейтральной. Между различными культурами, правовыми системами и общественными группами возможны расхождения относительно того, какие именно принципы следует считать приоритетными.[1]
Конституционный ИИ, интерпретируемость и model specifications
Конституционный ИИ связан с интерпретируемостью прежде всего на уровне внешних норм. Он делает более прозрачным вопрос о том, по каким принципам модель должна оцениваться и какие типы поведения считаются желательными либо нежелательными. В этом смысле явная конституция повышает аудируемость системы и облегчает общественное обсуждение её целей.
Однако такая прозрачность не означает полной интерпретируемости внутренних механизмов модели. Конституция описывает нормативный уровень, но не раскрывает, каким образом конкретные представления, признаки и внутренние вычисления приводят к итоговому ответу. Поэтому конституционный ИИ обычно рассматривается как дополнение к исследованиям механистической интерпретируемости, а не как их замена.[1]
Сходную роль играют и model specifications: они задают письменную спецификацию допустимого поведения, приоритетов и правил разрешения конфликтов. Различие состоит в том, что конституционный ИИ обычно подразумевает не только наличие такого документа, но и его прямое использование в процедуре постобучения, самокритики и ИИ-оценивания.
Научные дискуссии
Среди основных дискуссионных вопросов выделяются следующие:
- достаточно ли одной общей конституции или необходимы многочисленные частные правила;[1]
- может ли коллективное участие действительно повысить легитимность модели или лишь переносит проблему на уровень отбора участников и методов агрегации мнений;[1]
- в какой степени ИИ-обратная связь способна заменить человеческий надзор без потери качества и надёжности;[1]
- можно ли считать письменную конституцию адекватной формой задания сложных моральных и правовых норм для статистической модели.
См. также
- Выравнивание ИИ
- Безопасность искусственного интеллекта
- Обучение с подкреплением на основе обратной связи человека
- Большая языковая модель
- Интерпретируемость моделей
- Этика искусственного интеллекта
- Jailbreak
Примечания
Литература
- Bai Y., Jones A., Ndousse K. et al. Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback. arXiv:2204.05862, 2022.
- Bai Y., Kadavath S., Kundu S. et al. Constitutional AI: Harmlessness from AI Feedback. arXiv:2212.08073, 2022.
- Huang S., Siddarth D., Lovitt L. et al. Collective Constitutional AI: Aligning a Language Model with Public Input. In: Proceedings of the 2024 ACM Conference on Fairness, Accountability, and Transparency, 2024.
- Kundu S., Bai Y., Kadavath S. et al. Specific versus General Principles for Constitutional AI. arXiv:2310.13798, 2023.
- Lee H., Phatale S., Mansoor H. et al. RLAIF vs. RLHF: Scaling Reinforcement Learning from Human Feedback with AI Feedback. In: Proceedings of the 41st International Conference on Machine Learning, PMLR 235, 2024.
- Ouyang L., Wu J., Jiang X. et al. Training Language Models to Follow Instructions with Human Feedback. arXiv:2203.02155, 2022.
- Perez E., Ringer S., Lukošiūtė K. et al. Discovering Language Model Behaviors with Model-Written Evaluations. arXiv:2212.09251, 2022.
- Sharma M., Tong M., Mu J. et al. Constitutional Classifiers: Defending against Universal Jailbreaks across Thousands of Hours of Red Teaming. arXiv:2501.18837, 2025.
Ссылки
- Constitutional AI: Harmlessness from AI Feedback
- Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback
- RLAIF vs. RLHF: Scaling Reinforcement Learning from Human Feedback with AI Feedback
- Specific versus General Principles for Constitutional AI
- Collective Constitutional AI: Aligning a Language Model with Public Input
- Constitutional Classifiers: Defending against Universal Jailbreaks across Thousands of Hours of Red Teaming
- Claude’s Constitution

