Эмерджентные способности больших языковых моделей
Материал из MachineLearning.
Конституционный искусственный интеллект (англ. Constitutional AI, CAI) — подход к выравниванию и безопасности искусственного интеллекта, при котором желательное поведение модели задаётся через явно сформулированный набор принципов, правил или ценностных ориентиров — «конституцию». Такая конституция используется не только как описание желательного поведения, но и как источник обратной связи при обучении, критике и оценивании ответов модели.[1]
Подход получил широкую известность после работ компании Anthropic, где он был предложен как способ уменьшить зависимость от массовой человеческой разметки при обучении безопасных диалоговых моделей. В более широком смысле конституционный ИИ относится к методам, в которых поведение большой языковой модели регулируется через отдельную спецификацию норм, а не только через примеры из обучающих данных.[1]
История
Предпосылки конституционного ИИ связаны с развитием методов обучения по предпочтениям человека, прежде всего обучения с подкреплением на основе обратной связи человека (англ. Reinforcement Learning from Human Feedback, RLHF). В работах по InstructGPT и сходным системам поведение модели улучшалось за счёт демонстраций и ранжирования ответов людьми.[1]
Ограничения RLHF — высокая стоимость разметки, трудность масштабирования и зависимость от предпочтений конкретных аннотаторов — привели к поиску методов, где человек задаёт не множество частных оценок, а более общие правила. В работе Constitutional AI: Harmlessness from AI Feedback была предложена схема, в которой модель сначала критикует и исправляет собственные ответы по заданным принципам, а затем обучается с использованием ИИ-обратной связи.[1]
Позднее направление развивалось в нескольких линиях: сравнение RLAIF и RLHF, изучение общих и частных принципов конституции, коллективное формирование принципов с участием широкой аудитории и применение конституционного подхода в защитных классификаторах.[1][1]
Основные идеи
Конституционный ИИ основан на трёх различимых компонентах:
- конституция — набор текстовых принципов, описывающих желательное и нежелательное поведение модели;
- процедура постобучения — использование этих принципов для критики, исправления и ранжирования ответов;
- система безопасности — дополнительные механизмы, которые могут использовать конституционные правила для фильтрации, модерации или обнаружения опасных запросов.
Важно различать эти уровни. Конституция сама по себе является нормативным документом. Постобучение превращает её в обучающий сигнал. Защитные подсистемы используют похожие правила уже на этапе применения модели.
Типичный конвейер обучения
В классической схеме CAI обучение включает две стадии.[1]
Самокритика и самопересмотр
Сначала модель генерирует ответ на запрос. Затем ей предъявляется один из принципов конституции, после чего модель должна:
- указать, в чём ответ может нарушать принцип;
- предложить исправленную версию;
- сохранить полезность ответа там, где это возможно.
Например, если пользователь просит опасную инструкцию, модель должна не просто отказаться, а по возможности объяснить причину отказа и предложить безопасную альтернативу. Если запрос допустим, но ответ содержит чрезмерно уверенное утверждение, конституционный принцип может требовать более осторожной формулировки.
Обучение по ИИ-обратной связи
На следующем этапе модель генерирует несколько вариантов ответа, а ИИ-оценщик выбирает вариант, лучше соответствующий конституции. Из таких сравнений строится модель предпочтений, после чего основная модель дообучается методами обучения с подкреплением.
RLAIF
Обучение с подкреплением на основе обратной связи ИИ (англ. Reinforcement Learning from AI Feedback, RLAIF) — метод, в котором предпочтения для обучения формируются не человеком, а другой моделью или той же моделью в режиме оценивания. В конституционном ИИ RLAIF используется для выбора ответов, лучше согласованных с заданными принципами.[1]
Главное отличие от RLHF состоит в источнике обратной связи:
- в RLHF ответы сравнивают люди;
- в RLAIF ответы сравнивает ИИ-оценщик, действующий по заданным принципам.
Преимущество RLAIF — масштабируемость и снижение стоимости разметки. Ограничение — зависимость от качества оценщика: его ошибки, смещения и слепые зоны могут переноситься в итоговую модель. В сравнительных исследованиях было показано, что RLAIF на ряде задач может давать результаты, сопоставимые с RLHF, но не устраняет полностью проблему надёжного надзора.[1]
Формирование конституции
Конституция модели может формироваться различными способами.
Принципы, задаваемые разработчиками
В ранних работах по CAI принципы составлялись исследователями и разработчиками. Такой подход удобен инженерно: правила можно быстро изменять, уточнять и проверять. Однако он вызывает вопрос о том, чьи именно ценности и нормы встроены в модель.[1]
Коллективное участие
Коллективный конституционный ИИ (англ. Collective Constitutional AI) предполагает участие более широкой группы людей в формировании принципов. В работе Anthropic и Collective Intelligence Project была описана процедура, включающая выбор целевой аудитории, сбор предложений, агрегацию принципов и обучение модели на их основе.[1]
Такой подход стремится сделать нормы менее зависимыми от одной компании или исследовательской группы. При этом остаются сложные вопросы: кого считать представительной аудиторией, как согласовывать противоречивые мнения и как учитывать различия между странами, языками и социальными группами.
Примеры применения конституционных принципов
На практике конституционные принципы могут применяться в разных ситуациях.
- Отказ от опасной инструкции. Если запрос связан с причинением вреда, модель должна отказаться выполнять инструкцию и объяснить причину отказа.
- Безопасная переформулировка. Если пользователь задаёт рискованный, но потенциально допустимый вопрос, модель может перенаправить ответ к безопасной образовательной информации.
- Выбор между допустимыми ответами. Если несколько ответов формально верны, предпочтение может отдаваться более честному, менее вводящему в заблуждение и более полезному варианту.
- Уточнение неопределённости. Если модель не обладает достаточными основаниями для уверенного ответа, принцип может требовать указать степень неопределённости.
Публичным примером документа такого типа является Claude’s Constitution, где Anthropic описывает принципы, связанные с поведением модели, безопасностью, честностью и взаимодействием с пользователем.[1]
Оценивание конституционного ИИ
Модели, обученные с использованием конституционного подхода, обычно оцениваются по нескольким группам критериев:
- полезность (англ. helpfulness) — способность отвечать на запросы пользователя по существу;
- безвредность (англ. harmlessness) — склонность избегать опасных, незаконных или вредных инструкций;
- честность (англ. honesty) — способность не выдавать неподтверждённые утверждения за достоверные;
- устойчивость к обходу ограничений — сопротивление jailbreak-атакам и манипулятивным подсказкам.
Сравнение CAI, RLAIF и RLHF методологически сложно. Результат зависит от набора тестов, формулировок запросов, критериев оценивания, состава аннотаторов и качества ИИ-оценщика. Кроме того, высокое качество на стандартных тестах не гарантирует устойчивости в новых или специально атакующих сценариях.
Конституционный ИИ и безопасность
Конституционный ИИ является частью более широкой области безопасности ИИ. Он может снижать вероятность вредных ответов, но не является полной защитой. Особенно важны атаки типа jailbreak, когда пользователь пытается обойти ограничения модели с помощью специально подобранных инструкций.
Одним из направлений развития являются конституционные классификаторы (англ. constitutional classifiers) — защитные модели, обученные на синтетических данных, созданных по правилам конституции. В работе Anthropic такие классификаторы применялись для противодействия универсальным jailbreak-атакам.[1]
Применение вне обычного диалога
Хотя CAI чаще всего обсуждается применительно к диалоговым агентам, его идеи могут использоваться шире:
- в системах модерации контента;
- в классификаторах безопасности;
- в фильтрации опасных запросов;
- в оценивании ответов других моделей;
- в управлении поведением агентных систем;
- в тестировании моделей перед выпуском.
В этих случаях конституция выступает не только как инструкция для генеративной модели, но и как формализованное описание допустимого и недопустимого поведения.
Связь с model specifications
Конституционный ИИ близок к идее модельных спецификаций (англ. model specifications) — документов, описывающих желательное поведение модели в разных ситуациях. Например, OpenAI Model Spec задаёт правила и приоритеты поведения моделей в ChatGPT и API.[1]
Различие состоит в том, что модельная спецификация может быть в первую очередь документом для проектирования и оценки, тогда как конституционный ИИ предполагает прямое использование принципов в процессе постобучения, самокритики или ИИ-оценивания.
Связь с интерпретируемостью
Конституционный ИИ повышает прозрачность на уровне внешних норм: становится яснее, по каким принципам модель должна оценивать ответы и какие типы поведения считаются нежелательными. Однако это не означает полной интерпретируемости внутренних механизмов модели.
Конституция показывает, какие нормы были заданы, но не объясняет, какие внутренние представления и вычисления привели к конкретному ответу. Поэтому CAI дополняет, но не заменяет исследования механистической интерпретируемости и независимое тестирование моделей.
Культурная и нормативная зависимость
Конституция модели не является нейтральной в строгом смысле: она отражает определённый выбор ценностей, приоритетов и допустимых компромиссов. Для разных стран, языков, правовых систем и социальных групп могут различаться представления о допустимых ответах, границах свободы выражения, медицинских советах, политической информации или морально чувствительных темах.
Коллективный конституционный ИИ является одной из попыток учесть эту проблему, однако он не устраняет её полностью. Даже при общественном участии необходимо решать, кто участвует в выработке принципов, как агрегируются мнения и как разрешаются конфликты между безопасностью, полезностью и свободой пользователя.[1]
Ограничения
Основные ограничения конституционного ИИ включают:
- неоднозначность естественно-языковых принципов;
- трудность выбора универсальной конституции;
- риск формального следования правилам без устойчивого понимания их смысла;
- возможность переноса ошибок ИИ-оценщика в итоговую модель;
- уязвимость к jailbreak-атакам;
- отсутствие полной прозрачности внутренних механизмов модели.
Кроме того, CAI в основном улучшает наблюдаемое поведение модели, но не гарантирует решения проблемы внутреннего выравнивания.
Научные дискуссии
Вокруг конституционного ИИ обсуждаются несколько вопросов:
- может ли ИИ-обратная связь заменить человеческий надзор;
- насколько общими или детализированными должны быть принципы;
- кто должен иметь право формулировать конституцию модели;
- как проверять соответствие модели заявленным принципам;
- можно ли применять одну и ту же конституцию в разных культурных и правовых контекстах.
Эти вопросы показывают, что CAI является не только инженерным методом, но и частью более широкой дискуссии об управлении, этике и безопасности искусственного интеллекта.
См. также
- Большая языковая модель
- Выравнивание ИИ
- Безопасность искусственного интеллекта
- Обучение с подкреплением на основе обратной связи человека
- Интерпретируемость моделей
- Этика искусственного интеллекта
- Jailbreak
- Модерация контента
Примечания
Литература
- Bai Y., Kadavath S., Kundu S. et al. Constitutional AI: Harmlessness from AI Feedback. arXiv:2212.08073, 2022.
- Bai Y., Jones A., Ndousse K. et al. Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback. arXiv:2204.05862, 2022.
- Huang S., Siddarth D., Lovitt L. et al. Collective Constitutional AI: Aligning a Language Model with Public Input. In: Proceedings of the 2024 ACM Conference on Fairness, Accountability, and Transparency, 2024.
- Lee H., Phatale S., Mansoor H. et al. RLAIF vs. RLHF: Scaling Reinforcement Learning from Human Feedback with AI Feedback. In: Proceedings of the 41st International Conference on Machine Learning, 2024.
- Ouyang L., Wu J., Jiang X. et al. Training Language Models to Follow Instructions with Human Feedback. arXiv:2203.02155, 2022.
- Sharma M., Tong M., Mu J. et al. Constitutional Classifiers: Defending against Universal Jailbreaks across Thousands of Hours of Red Teaming. arXiv:2501.18837, 2025.
Ссылки
- Constitutional AI: Harmlessness from AI Feedback
- Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback
- RLAIF vs. RLHF: Scaling Reinforcement Learning from Human Feedback with AI Feedback
- Collective Constitutional AI: Aligning a Language Model with Public Input
- Constitutional Classifiers: Defending against Universal Jailbreaks across Thousands of Hours of Red Teaming
- Claude’s Constitution
- OpenAI Model Spec

