Эмерджентные способности больших языковых моделей

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
Строка 1: Строка 1:
-
{{well|Статья написана с использованием LLM '''GPT-5.5''' и проверена участником [[Участник:Aleksandorva Marina|Aleksandrova Marina]] 21:41, 30 июня 2026 (MSD)}}
+
'''Конституционный искусственный интеллект''' (англ. ''Constitutional AI'', CAI) — подход к [[выравнивание ИИ|выравниванию]] и [[безопасность искусственного интеллекта|безопасности искусственного интеллекта]], при котором желательное поведение модели задаётся через явно сформулированный набор принципов, правил или ценностных ориентиров — «конституцию». Такая конституция используется не только как описание желательного поведения, но и как источник обратной связи при обучении, критике и оценивании ответов модели.<ref>Bai Y., Kadavath S., Kundu S. et al. ''Constitutional AI: Harmlessness from AI Feedback''. arXiv:2212.08073, 2022. URL: https://arxiv.org/abs/2212.08073</ref>
-
{{TOCright}}
+
-
'''Сценарный анализ''' — метод исследования неопределённого будущего, при котором рассматривается не один прогноз, а несколько согласованных вариантов развития событий, основанных на разных допущениях о ключевых факторах, рисках и точках выбора. Сценарный анализ применяется в [[стратегическое планирование|стратегическом планировании]], [[управление рисками|управлении рисками]], [[прогнозирование|прогнозировании]], государственном управлении, энергетике, промышленности и технологической политике.
+
Подход получил широкую известность после работ компании [[Anthropic]], где он был предложен как способ уменьшить зависимость от массовой человеческой разметки при обучении безопасных диалоговых моделей. В более широком смысле конституционный ИИ относится к методам, в которых поведение [[большая языковая модель|большой языковой модели]] регулируется через отдельную спецификацию норм, а не только через примеры из обучающих данных.<ref>Anthropic. ''Claude’s Constitution''. URL: https://www.anthropic.com/constitution</ref>
-
 
+
-
В отличие от точечного прогноза, сценарный анализ не стремится угадать единственное «правильное» будущее. Его задача — описать набор правдоподобных траекторий и проверить, насколько устойчивыми будут решения в разных условиях. По этой причине сценарный анализ особенно важен в задачах, где велика роль неопределённости, структурных сдвигов, политических решений, технологических прорывов или редких событий.
+
== История ==
== История ==
-
Истоки сценарного анализа обычно связывают с военным и стратегическим планированием середины XX века, в частности с работами [[RAND Corporation]] и Германа Кана. В корпоративной стратегии метод получил широкую известность благодаря практике [[Shell]], где сценарии стали использоваться для анализа мирового энергетического рынка и геополитических изменений. Работы Пьера Вака в 1970–1980-х годах сыграли ключевую роль в становлении сценарного планирования как управленческого метода.
+
Предпосылки конституционного ИИ связаны с развитием методов обучения по предпочтениям человека, прежде всего [[обучение с подкреплением на основе обратной связи человека|обучения с подкреплением на основе обратной связи человека]] (англ. ''Reinforcement Learning from Human Feedback'', RLHF). В работах по InstructGPT и сходным системам поведение модели улучшалось за счёт демонстраций и ранжирования ответов людьми.<ref>Ouyang L., Wu J., Jiang X. et al. ''Training Language Models to Follow Instructions with Human Feedback''. arXiv:2203.02155, 2022. URL: https://arxiv.org/abs/2203.02155</ref>
-
Позднее сценарный анализ стал активно применяться в энергетике, климатических исследованиях, макроэкономике, технологическом прогнозировании и государственной политике. В этой области известны, в частности, сценарии [[IPCC]], [[IEA]] и национальных аналитических центров, публикующих альтернативные траектории развития отраслей, технологий и стран.
+
Ограничения RLHF — высокая стоимость разметки, трудность масштабирования и зависимость от предпочтений конкретных аннотаторов — привели к поиску методов, где человек задаёт не множество частных оценок, а более общие правила. В работе ''Constitutional AI: Harmlessness from AI Feedback'' была предложена схема, в которой модель сначала критикует и исправляет собственные ответы по заданным принципам, а затем обучается с использованием ИИ-обратной связи.<ref>Bai Y., Kadavath S., Kundu S. et al. ''Constitutional AI: Harmlessness from AI Feedback''. arXiv:2212.08073, 2022. URL: https://arxiv.org/abs/2212.08073</ref>
-
== Основная идея ==
+
Позднее направление развивалось в нескольких линиях: сравнение RLAIF и RLHF, изучение общих и частных принципов конституции, коллективное формирование принципов с участием широкой аудитории и применение конституционного подхода в защитных классификаторах.<ref>Lee H., Phatale S., Mansoor H. et al. ''RLAIF vs. RLHF: Scaling Reinforcement Learning from Human Feedback with AI Feedback''. ICML 2024. URL: https://openreview.net/forum?id=uydQ2W41KO</ref><ref>Huang S., Siddarth D., Lovitt L. et al. ''Collective Constitutional AI: Aligning a Language Model with Public Input''. FAccT 2024. URL: https://arxiv.org/abs/2406.07814</ref>
-
Сценарий — это не предсказание, а связное описание возможного будущего, построенное на системе предпосылок. Обычно сценарии формируются вокруг нескольких ключевых неопределённостей, например:
+
== Основные идеи ==
-
* темпы технологического прогресса;
+
Конституционный ИИ основан на трёх различимых компонентах:
-
* изменение спроса;
+
-
* стоимость ресурсов;
+
-
* политическое регулирование;
+
-
* международная обстановка;
+
-
* поведение потребителей;
+
-
* экологические ограничения.
+
-
Сценарный анализ позволяет ответить на вопросы вида:
+
* '''конституция''' — набор текстовых принципов, описывающих желательное и нежелательное поведение модели;
 +
* '''процедура постобучения''' — использование этих принципов для критики, исправления и ранжирования ответов;
 +
* '''система безопасности''' — дополнительные механизмы, которые могут использовать конституционные правила для фильтрации, модерации или обнаружения опасных запросов.
-
* какие варианты будущего являются правдоподобными;
+
Важно различать эти уровни. Конституция сама по себе является нормативным документом. Постобучение превращает её в обучающий сигнал. Защитные подсистемы используют похожие правила уже на этапе применения модели.
-
* какие факторы сильнее всего влияют на результат;
+
-
* какие решения устойчивы сразу в нескольких сценариях;
+
-
* к каким рискам нужно готовиться заранее.
+
-
== Качественные и количественные методики ==
+
== Типичный конвейер обучения ==
-
Сценарный анализ принято делить на '''качественный''' и '''количественный'''. На практике часто используются смешанные схемы, но различие между этими двумя группами методов принципиально.
+
В классической схеме CAI обучение включает две стадии.<ref>Bai Y., Kadavath S., Kundu S. et al. ''Constitutional AI: Harmlessness from AI Feedback''. arXiv:2212.08073, 2022. URL: https://arxiv.org/abs/2212.08073</ref>
-
=== Качественные методики ===
+
=== Самокритика и самопересмотр ===
-
Качественный сценарный анализ опирается на экспертное рассуждение, описание причинно-следственных связей, выделение драйверов изменений и построение альтернативных нарративов будущего. Его цель — не столько численный расчёт, сколько структурирование неопределённости и выявление принципиально разных траекторий развития.
+
Сначала модель генерирует ответ на запрос. Затем ей предъявляется один из принципов конституции, после чего модель должна:
-
К качественным методикам относятся:
+
* указать, в чём ответ может нарушать принцип;
 +
* предложить исправленную версию;
 +
* сохранить полезность ответа там, где это возможно.
-
* экспертные сценарии;
+
Например, если пользователь просит опасную инструкцию, модель должна не просто отказаться, а по возможности объяснить причину отказа и предложить безопасную альтернативу. Если запрос допустим, но ответ содержит чрезмерно уверенное утверждение, конституционный принцип может требовать более осторожной формулировки.
-
* [[анализ «что-если»]];
+
-
* морфологический анализ;
+
-
* сценарные мастерские;
+
-
* анализ ключевых неопределённостей;
+
-
* кросс-импакт-анализ.
+
-
Преимущество качественного подхода состоит в том, что он позволяет учитывать слабо формализуемые факторы: политические конфликты, социальные изменения, институциональные барьеры, культурные сдвиги, научные прорывы и изменение ценностей. Недостаток — более высокая зависимость от состава экспертов и трудность строгой проверки результатов.
+
=== Обучение по ИИ-обратной связи ===
-
=== Количественные методики ===
+
На следующем этапе модель генерирует несколько вариантов ответа, а ИИ-оценщик выбирает вариант, лучше соответствующий конституции. Из таких сравнений строится модель предпочтений, после чего основная модель дообучается методами [[обучение с подкреплением|обучения с подкреплением]].
-
Количественный сценарный анализ использует математические модели, статистические оценки, [[имитационное моделирование]], [[Монте-Карло]]-подходы, эконометрические модели, оптимизационные модели и системы уравнений. В этом случае сценарии задаются через различные значения параметров, а результат выражается в численной форме: объёмах производства, ценах, выбросах, спросе, вероятностях, доходности или потерях.
+
== RLAIF ==
-
К количественным методикам относятся:
+
'''Обучение с подкреплением на основе обратной связи ИИ''' (англ. ''Reinforcement Learning from AI Feedback'', RLAIF) — метод, в котором предпочтения для обучения формируются не человеком, а другой моделью или той же моделью в режиме оценивания. В конституционном ИИ RLAIF используется для выбора ответов, лучше согласованных с заданными принципами.<ref>Lee H., Phatale S., Mansoor H. et al. ''RLAIF vs. RLHF: Scaling Reinforcement Learning from Human Feedback with AI Feedback''. ICML 2024. URL: https://openreview.net/forum?id=uydQ2W41KO</ref>
-
* параметрический анализ чувствительности;
+
Главное отличие от RLHF состоит в источнике обратной связи:
-
* стохастическое моделирование;
+
-
* сценарные деревья;
+
-
* [[decision tree|деревья решений]];
+
-
* вероятностные графовые модели;
+
-
* макроэкономические и отраслевые модели;
+
-
* энергетические и климатические модели.
+
-
Преимущество количественного подхода — возможность формального сравнения сценариев и расчёта последствий решений. Ограничение состоит в том, что численные модели требуют сильных предпосылок и могут плохо отражать структурные разрывы и качественно новые явления.
+
* в RLHF ответы сравнивают люди;
 +
* в RLAIF ответы сравнивает ИИ-оценщик, действующий по заданным принципам.
-
== Типичная процедура сценарного анализа ==
+
Преимущество RLAIF — масштабируемость и снижение стоимости разметки. Ограничение — зависимость от качества оценщика: его ошибки, смещения и слепые зоны могут переноситься в итоговую модель. В сравнительных исследованиях было показано, что RLAIF на ряде задач может давать результаты, сопоставимые с RLHF, но не устраняет полностью проблему надёжного надзора.<ref>Lee H., Phatale S., Mansoor H. et al. ''RLAIF vs. RLHF: Scaling Reinforcement Learning from Human Feedback with AI Feedback''. ICML 2024. URL: https://openreview.net/forum?id=uydQ2W41KO</ref>
-
Во многих практических схемах сценарный анализ включает следующие этапы:
+
== Формирование конституции ==
-
# определение объекта анализа и горизонта времени;
+
Конституция модели может формироваться различными способами.
-
# выявление ключевых факторов и заинтересованных сторон;
+
-
# выделение наиболее значимых неопределённостей;
+
-
# построение нескольких альтернативных сценариев;
+
-
# анализ последствий для стратегии, рисков и решений;
+
-
# выбор устойчивых мер, полезных в разных сценариях;
+
-
# регулярный пересмотр сценариев по мере появления новых данных.
+
-
== Применение в бизнесе ==
+
=== Принципы, задаваемые разработчиками ===
-
В бизнесе сценарный анализ используется для стратегического планирования в условиях нестабильного рынка. Наиболее известный пример связан с компанией [[Shell]], которая применяла сценарное планирование для анализа энергетических и геополитических изменений. В литературе часто указывается, что такая работа помогла руководству компании лучше подготовиться к последствиям нефтяного кризиса 1970-х годов.
+
В ранних работах по CAI принципы составлялись исследователями и разработчиками. Такой подход удобен инженерно: правила можно быстро изменять, уточнять и проверять. Однако он вызывает вопрос о том, чьи именно ценности и нормы встроены в модель.<ref>Bai Y., Kadavath S., Kundu S. et al. ''Constitutional AI: Harmlessness from AI Feedback''. arXiv:2212.08073, 2022. URL: https://arxiv.org/abs/2212.08073</ref>
-
Современные бизнес-приложения сценарного анализа включают:
+
=== Коллективное участие ===
-
* оценку устойчивости стратегии компании при изменении цен и спроса;
+
'''Коллективный конституционный ИИ''' (англ. ''Collective Constitutional AI'') предполагает участие более широкой группы людей в формировании принципов. В работе Anthropic и Collective Intelligence Project была описана процедура, включающая выбор целевой аудитории, сбор предложений, агрегацию принципов и обучение модели на их основе.<ref>Huang S., Siddarth D., Lovitt L. et al. ''Collective Constitutional AI: Aligning a Language Model with Public Input''. FAccT 2024. URL: https://arxiv.org/abs/2406.07814</ref>
-
* анализ последствий выхода новых технологий;
+
-
* планирование инвестиций при высокой неопределённости;
+
-
* разработку продуктовой стратегии;
+
-
* анализ цепочек поставок и логистических рисков;
+
-
* оценку регуляторных и геополитических шоков.
+
-
Например, в энергетическом и сырьевом бизнесе сценарии используются для проверки инвестиционных решений при разных ценах на нефть, газ, электроэнергию, углерод и оборудование. В финансовом секторе сценарный анализ применяется для стресс-тестирования и оценки рисков портфеля.
+
Такой подход стремится сделать нормы менее зависимыми от одной компании или исследовательской группы. При этом остаются сложные вопросы: кого считать представительной аудиторией, как согласовывать противоречивые мнения и как учитывать различия между странами, языками и социальными группами.
-
== Применение в промышленности ==
+
== Примеры применения конституционных принципов ==
-
В промышленности сценарный анализ помогает оценивать развитие технологий, спроса, поставок и инфраструктуры. Особенно важен он в капиталоёмких секторах, где решения принимаются на годы вперёд.
+
На практике конституционные принципы могут применяться в разных ситуациях.
-
Типичные задачи:
+
* '''Отказ от опасной инструкции.''' Если запрос связан с причинением вреда, модель должна отказаться выполнять инструкцию и объяснить причину отказа.
 +
* '''Безопасная переформулировка.''' Если пользователь задаёт рискованный, но потенциально допустимый вопрос, модель может перенаправить ответ к безопасной образовательной информации.
 +
* '''Выбор между допустимыми ответами.''' Если несколько ответов формально верны, предпочтение может отдаваться более честному, менее вводящему в заблуждение и более полезному варианту.
 +
* '''Уточнение неопределённости.''' Если модель не обладает достаточными основаниями для уверенного ответа, принцип может требовать указать степень неопределённости.
-
* выбор производственных мощностей при разных сценариях спроса;
+
Публичным примером документа такого типа является ''Claude’s Constitution'', где Anthropic описывает принципы, связанные с поведением модели, безопасностью, честностью и взаимодействием с пользователем.<ref>Anthropic. ''Claude’s Constitution''. URL: https://www.anthropic.com/constitution</ref>
-
* оценка последствий дефицита сырья и комплектующих;
+
-
* планирование автоматизации и цифровизации;
+
-
* анализ устойчивости производственной цепочки;
+
-
* оценка сценариев энергопотребления и декарбонизации.
+
-
Известные примеры можно найти в энергетике и тяжёлой промышленности. Международное энергетическое агентство публикует долгосрочные сценарии по секторам и регионам, включая промышленность, транспорт и электроэнергетику. Такие сценарии используются государствами, компаниями и аналитическими центрами для оценки возможных путей энергоперехода.
+
== Оценивание конституционного ИИ ==
-
== Сценарии для крупных объектов: наука, отрасль, страна ==
+
Модели, обученные с использованием конституционного подхода, обычно оцениваются по нескольким группам критериев:
-
Сценарный анализ особенно важен для крупных и сложных объектов, где взаимодействуют технологии, экономика, политика и общество.
+
* '''полезность''' (англ. ''helpfulness'') — способность отвечать на запросы пользователя по существу;
 +
* '''безвредность''' (англ. ''harmlessness'') — склонность избегать опасных, незаконных или вредных инструкций;
 +
* '''честность''' (англ. ''honesty'') — способность не выдавать неподтверждённые утверждения за достоверные;
 +
* '''устойчивость к обходу ограничений''' — сопротивление jailbreak-атакам и манипулятивным подсказкам.
-
=== Область науки ===
+
Сравнение CAI, RLAIF и RLHF методологически сложно. Результат зависит от набора тестов, формулировок запросов, критериев оценивания, состава аннотаторов и качества ИИ-оценщика. Кроме того, высокое качество на стандартных тестах не гарантирует устойчивости в новых или специально атакующих сценариях.
-
Для научных направлений сценарии применяются при оценке темпов развития, изменения исследовательской инфраструктуры, доступности вычислительных ресурсов и кадровых сдвигов. Например, в обсуждении будущего [[искусственный интеллект|искусственного интеллекта]] используются сценарии, различающиеся по темпам роста вычислительных мощностей, доступности данных, усилению регулирования и степени распространения агентных систем.
+
== Конституционный ИИ и безопасность ==
-
=== Отрасль ===
+
Конституционный ИИ является частью более широкой области [[безопасность искусственного интеллекта|безопасности ИИ]]. Он может снижать вероятность вредных ответов, но не является полной защитой. Особенно важны атаки типа [[jailbreak]], когда пользователь пытается обойти ограничения модели с помощью специально подобранных инструкций.
-
Для отраслей сценарии помогают оценивать возможные траектории структурной трансформации. В энергетике классическим примером являются долгосрочные сценарии [[IEA]] и [[EIA]], где рассматриваются альтернативные пути развития мирового и национального энергобаланса при разных технологических и политических условиях. В таких работах сопоставляются сценарии действующей политики, ускоренного перехода и более жёстких климатических ограничений.
+
Одним из направлений развития являются '''конституционные классификаторы''' (англ. ''constitutional classifiers'') — защитные модели, обученные на синтетических данных, созданных по правилам конституции. В работе Anthropic такие классификаторы применялись для противодействия универсальным jailbreak-атакам.<ref>Sharma M., Tong M., Mu J. et al. ''Constitutional Classifiers: Defending against Universal Jailbreaks across Thousands of Hours of Red Teaming''. arXiv:2501.18837, 2025. URL: https://arxiv.org/abs/2501.18837</ref>
-
=== Страна ===
+
== Применение вне обычного диалога ==
-
На уровне страны сценарный анализ используется в макроэкономике, демографии, энергетике, климатической политике и национальной безопасности. В климатических исследованиях широко известны сценарные семейства [[IPCC]], применяемые для анализа выбросов, температуры, адаптации и мер по смягчению последствий изменения климата. Такие сценарии не предсказывают единственную траекторию, а показывают диапазон возможных путей развития мировой и национальных систем.
+
Хотя CAI чаще всего обсуждается применительно к диалоговым агентам, его идеи могут использоваться шире:
-
== Качественный сценарный анализ для развития искусственного интеллекта ==
+
* в системах модерации контента;
 +
* в классификаторах безопасности;
 +
* в фильтрации опасных запросов;
 +
* в оценивании ответов других моделей;
 +
* в управлении поведением агентных систем;
 +
* в тестировании моделей перед выпуском.
-
Качественные сценарии активно применяются к анализу будущего [[искусственный интеллект|искусственного интеллекта]]. В этой области особенно важны факторы, которые трудно описать одной формулой: темпы научных прорывов, структура рынка, регуляторные ограничения, военное применение, международная конкуренция, общественное доверие и готовность институтов к внедрению ИИ.
+
В этих случаях конституция выступает не только как инструкция для генеративной модели, но и как формализованное описание допустимого и недопустимого поведения.
-
Возможный качественный анализ обычно строится вокруг двух групп вопросов:
+
== Связь с model specifications ==
-
'''Возможности:'''
+
Конституционный ИИ близок к идее '''модельных спецификаций''' (англ. ''model specifications'') — документов, описывающих желательное поведение модели в разных ситуациях. Например, OpenAI Model Spec задаёт правила и приоритеты поведения моделей в ChatGPT и API.<ref>OpenAI. ''Introducing the Model Spec''. 2024. URL: https://openai.com/index/introducing-the-model-spec/</ref>
-
* рост производительности;
+
-
* автоматизация рутинных интеллектуальных задач;
+
-
* ускорение научных исследований;
+
-
* улучшение диагностики, анализа данных и проектирования;
+
-
* расширение доступа к образовательным и экспертным системам.
+
-
'''Угрозы:'''
+
Различие состоит в том, что модельная спецификация может быть в первую очередь документом для проектирования и оценки, тогда как конституционный ИИ предполагает прямое использование принципов в процессе постобучения, самокритики или ИИ-оценивания.
-
* усиление ошибок и предвзятостей в масштабных системах;
+
-
* концентрация технологической власти;
+
-
* информационные манипуляции;
+
-
* риски для занятости и структуры рынка труда;
+
-
* новые уязвимости в области безопасности и управления.
+
-
Для обсуждения таких траекторий используются государственные и международные форсайт-документы. В частности, сценарный подход к будущему ИИ применяется в материалах правительственных аналитических центров и международных организаций, где рассматриваются одновременно риски и потенциальные выгоды технологического развития.
+
== Связь с интерпретируемостью ==
-
== Сценарный анализ на основе графа вариантов развития ==
+
Конституционный ИИ повышает прозрачность на уровне внешних норм: становится яснее, по каким принципам модель должна оценивать ответы и какие типы поведения считаются нежелательными. Однако это не означает полной [[интерпретируемость моделей|интерпретируемости]] внутренних механизмов модели.
-
Отдельный класс методов связан с построением '''графа вариантов развития событий''', где вершины соответствуют состояниям системы или ключевым событиям, а рёбра — возможным переходам между ними. На рёбрах или вершинах могут задаваться вероятности, издержки, выигрыши, временные задержки и условия перехода.
+
Конституция показывает, какие нормы были заданы, но не объясняет, какие внутренние представления и вычисления привели к конкретному ответу. Поэтому CAI дополняет, но не заменяет исследования механистической интерпретируемости и независимое тестирование моделей.
-
К таким подходам относятся:
+
== Культурная и нормативная зависимость ==
-
* [[дерево решений]] (decision tree);
+
Конституция модели не является нейтральной в строгом смысле: она отражает определённый выбор ценностей, приоритетов и допустимых компромиссов. Для разных стран, языков, правовых систем и социальных групп могут различаться представления о допустимых ответах, границах свободы выражения, медицинских советах, политической информации или морально чувствительных темах.
-
* сценарные деревья;
+
-
* [[influence diagram|диаграммы влияния]];
+
-
* вероятностные графовые модели;
+
-
* графы переходов состояний.
+
-
В простейшем случае сценарий представляется как дерево: после каждого ключевого выбора или внешнего события система переходит в одну из нескольких ветвей. Каждой ветви может быть сопоставлена вероятность, а в листьях дерева — итоговый результат. Это позволяет:
+
Коллективный конституционный ИИ является одной из попыток учесть эту проблему, однако он не устраняет её полностью. Даже при общественном участии необходимо решать, кто участвует в выработке принципов, как агрегируются мнения и как разрешаются конфликты между безопасностью, полезностью и свободой пользователя.<ref>Huang S., Siddarth D., Lovitt L. et al. ''Collective Constitutional AI: Aligning a Language Model with Public Input''. FAccT 2024. URL: https://arxiv.org/abs/2406.07814</ref>
-
* оценивать ожидаемые последствия решений;
+
== Ограничения ==
-
* сравнивать стратегии;
+
-
* проводить анализ чувствительности;
+
-
* вычислять ожидаемую полезность;
+
-
* выявлять наиболее критические развилки.
+
-
Такие методы особенно полезны в задачах [[принятие решений|принятия решений]] под неопределённостью, в инвестиционном анализе, логистике, энергетике и управлении сложными проектами. В более сложных моделях граф строится по этапам, а вероятности уточняются на основе статистики, экспертных оценок или байесовского пересчёта.
+
Основные ограничения конституционного ИИ включают:
-
== Связь с машинным обучением ==
+
* неоднозначность естественно-языковых принципов;
 +
* трудность выбора универсальной конституции;
 +
* риск формального следования правилам без устойчивого понимания их смысла;
 +
* возможность переноса ошибок ИИ-оценщика в итоговую модель;
 +
* уязвимость к jailbreak-атакам;
 +
* отсутствие полной прозрачности внутренних механизмов модели.
-
Хотя сценарный анализ исторически возник вне [[машинное обучение|машинного обучения]], сегодня он всё чаще сочетается с методами анализа данных. Возможны несколько форм такой интеграции:
+
Кроме того, CAI в основном улучшает наблюдаемое поведение модели, но не гарантирует решения проблемы внутреннего выравнивания.
-
 
+
-
* использование прогнозных моделей для задания параметров сценариев;
+
-
* применение [[кластеризация|кластеризации]] для выделения типовых режимов развития;
+
-
* использование генеративных моделей и симуляторов для синтеза возможных траекторий;
+
-
* оценка вероятностей сценарных ветвей по историческим данным;
+
-
* использование [[обучение с подкреплением|обучения с подкреплением]] и имитационного моделирования для анализа стратегий в сценарной среде.
+
-
 
+
-
При этом сценарный анализ не сводится к предсказательной модели. Его цель — не только оценить наиболее вероятный исход, но и подготовить решение к менее вероятным, но значимым вариантам будущего.
+
-
 
+
-
== Преимущества ==
+
-
 
+
-
К основным достоинствам сценарного анализа относятся:
+
-
 
+
-
* работа с глубокой неопределённостью;
+
-
* возможность учитывать качественные факторы;
+
-
* поддержка стратегических решений;
+
-
* выявление скрытых рисков;
+
-
* проверка устойчивости стратегии;
+
-
* лучшее понимание долгосрочных последствий решений.
+
-
 
+
-
== Ограничения ==
+
-
 
+
-
Сценарный анализ имеет и существенные ограничения.
+
-
 
+
-
* Сценарии не устраняют неопределённость, а лишь структурируют её.
+
-
* Качественные сценарии могут зависеть от состава экспертов и скрытых предпосылок.
+
-
* Количественные модели чувствительны к параметрам и структуре модели.
+
-
* Вероятности в долгосрочных сценариях нередко задаются приблизительно.
+
-
* Сценарии могут создавать ложное ощущение полноты рассмотрения будущего.
+
-
* Сложно проверить, насколько хорошо сценарий отражает ещё не наступившую реальность.
+
== Научные дискуссии ==
== Научные дискуссии ==
-
Вокруг сценарного анализа существуют несколько устойчивых дискуссий.
+
Вокруг конституционного ИИ обсуждаются несколько вопросов:
-
Во-первых, обсуждается вопрос, следует ли назначать вероятности качественным сценариям. Часть исследователей считает это полезным, поскольку вероятности позволяют сравнивать решения формально. Другие указывают, что в условиях глубокой неопределённости такие вероятности часто слишком условны.
+
* может ли ИИ-обратная связь заменить человеческий надзор;
 +
* насколько общими или детализированными должны быть принципы;
 +
* кто должен иметь право формулировать конституцию модели;
 +
* как проверять соответствие модели заявленным принципам;
 +
* можно ли применять одну и ту же конституцию в разных культурных и правовых контекстах.
-
Во-вторых, обсуждается соотношение сценариев и прогнозов. Сценарный анализ иногда ошибочно воспринимается как слабая форма прогнозирования, хотя в действительности он решает иную задачу: исследование пространства возможных будущих состояний.
+
Эти вопросы показывают, что CAI является не только инженерным методом, но и частью более широкой дискуссии об управлении, этике и безопасности искусственного интеллекта.
-
В-третьих, ведётся спор о том, насколько сценарии должны быть реалистичными или, напротив, «растягивающими мышление». В стратегическом планировании часто ценятся не только наиболее вероятные, но и пограничные сценарии, позволяющие заранее увидеть скрытые уязвимости.
+
== См. также ==
-
== См. также ==
+
* [[Большая языковая модель]]
 +
* [[Выравнивание ИИ]]
 +
* [[Безопасность искусственного интеллекта]]
 +
* [[Обучение с подкреплением на основе обратной связи человека]]
 +
* [[Интерпретируемость моделей]]
 +
* [[Этика искусственного интеллекта]]
 +
* [[Jailbreak]]
 +
* [[Модерация контента]]
-
* [[Прогнозирование]]
+
== Примечания ==
-
* [[Стратегическое планирование]]
+
<references />
-
* [[Управление рисками]]
+
-
* [[Анализ «что-если»]]
+
-
* [[Дерево решений]]
+
-
* [[Диаграмма влияния]]
+
-
* [[Имитационное моделирование]]
+
-
* [[Монте-Карло]]
+
-
* [[Системная динамика]]
+
-
* [[Форсайт]]
+
== Литература ==
== Литература ==
-
* Wack P. ''Scenarios: Uncharted Waters Ahead''. Harvard Business Review, 1985.
+
* Bai Y., Kadavath S., Kundu S. et al. ''Constitutional AI: Harmlessness from AI Feedback''. arXiv:2212.08073, 2022.
-
* Wack P. ''Scenarios: Shooting the Rapids''. Harvard Business Review, 1985.
+
* Bai Y., Jones A., Ndousse K. et al. ''Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback''. arXiv:2204.05862, 2022.
-
* Schoemaker P. J. H. ''Scenario Planning: A Tool for Strategic Thinking''. Sloan Management Review, 1995.
+
* Huang S., Siddarth D., Lovitt L. et al. ''Collective Constitutional AI: Aligning a Language Model with Public Input''. In: ''Proceedings of the 2024 ACM Conference on Fairness, Accountability, and Transparency'', 2024.
-
* van der Heijden K. ''Scenarios: The Art of Strategic Conversation''. 2nd ed. Wiley, 2005.
+
* Lee H., Phatale S., Mansoor H. et al. ''RLAIF vs. RLHF: Scaling Reinforcement Learning from Human Feedback with AI Feedback''. In: ''Proceedings of the 41st International Conference on Machine Learning'', 2024.
-
* Wilkinson A., Kupers R. ''The Essence of Scenarios: Learning from the Shell Experience''. Amsterdam University Press, 2013.
+
* Ouyang L., Wu J., Jiang X. et al. ''Training Language Models to Follow Instructions with Human Feedback''. arXiv:2203.02155, 2022.
-
* Jefferson M. ''Shell scenarios: What really happened in the 1970s and what may be learned for current world prospects''. Technological Forecasting and Social Change, 2012.
+
* Sharma M., Tong M., Mu J. et al. ''Constitutional Classifiers: Defending against Universal Jailbreaks across Thousands of Hours of Red Teaming''. arXiv:2501.18837, 2025.
-
* Bradfield R., Wright G., Burt G., Cairns G., van der Heijden K. ''The origins and evolution of scenario techniques in long range business planning''. Futures, 2005.
+
-
* Ramirez R., Wilkinson A. ''Strategic Reframing: The Oxford Scenario Planning Approach''. Oxford University Press, 2016.
+
-
* Howard R. A., Matheson J. E. ''Influence Diagrams''. In: Readings on the Principles and Applications of Decision Analysis. Strategic Decisions Group, 1984.
+
-
* Kaut M., Wallace S. W. ''Evaluation of scenario-generation methods for stochastic programming''. Pacific Journal of Optimization, 2007.
+
== Ссылки ==
== Ссылки ==
-
* Harvard Business Review — статьи Пьера Вака о сценариях
+
* [https://arxiv.org/abs/2212.08073 Constitutional AI: Harmlessness from AI Feedback]
-
* Shell Scenarios — материалы по истории и практике сценарного планирования
+
* [https://arxiv.org/abs/2204.05862 Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback]
-
* International Energy Agency — World Energy Outlook
+
* [https://openreview.net/forum?id=uydQ2W41KO RLAIF vs. RLHF: Scaling Reinforcement Learning from Human Feedback with AI Feedback]
-
* U.S. Energy Information Administration — Annual Energy Outlook
+
* [https://arxiv.org/abs/2406.07814 Collective Constitutional AI: Aligning a Language Model with Public Input]
-
* IPCC — сценарии выбросов и климатического развития
+
* [https://arxiv.org/abs/2501.18837 Constitutional Classifiers: Defending against Universal Jailbreaks across Thousands of Hours of Red Teaming]
-
* OECD — материалы по сценариям и стратегическому анализу развития искусственного интеллекта
+
* [https://www.anthropic.com/constitution Claude’s Constitution]
 +
* [https://openai.com/index/introducing-the-model-spec/ OpenAI Model Spec]

Версия 18:59, 30 июня 2026

Конституционный искусственный интеллект (англ. Constitutional AI, CAI) — подход к выравниванию и безопасности искусственного интеллекта, при котором желательное поведение модели задаётся через явно сформулированный набор принципов, правил или ценностных ориентиров — «конституцию». Такая конституция используется не только как описание желательного поведения, но и как источник обратной связи при обучении, критике и оценивании ответов модели.[1]

Подход получил широкую известность после работ компании Anthropic, где он был предложен как способ уменьшить зависимость от массовой человеческой разметки при обучении безопасных диалоговых моделей. В более широком смысле конституционный ИИ относится к методам, в которых поведение большой языковой модели регулируется через отдельную спецификацию норм, а не только через примеры из обучающих данных.[1]

Содержание

История

Предпосылки конституционного ИИ связаны с развитием методов обучения по предпочтениям человека, прежде всего обучения с подкреплением на основе обратной связи человека (англ. Reinforcement Learning from Human Feedback, RLHF). В работах по InstructGPT и сходным системам поведение модели улучшалось за счёт демонстраций и ранжирования ответов людьми.[1]

Ограничения RLHF — высокая стоимость разметки, трудность масштабирования и зависимость от предпочтений конкретных аннотаторов — привели к поиску методов, где человек задаёт не множество частных оценок, а более общие правила. В работе Constitutional AI: Harmlessness from AI Feedback была предложена схема, в которой модель сначала критикует и исправляет собственные ответы по заданным принципам, а затем обучается с использованием ИИ-обратной связи.[1]

Позднее направление развивалось в нескольких линиях: сравнение RLAIF и RLHF, изучение общих и частных принципов конституции, коллективное формирование принципов с участием широкой аудитории и применение конституционного подхода в защитных классификаторах.[1][1]

Основные идеи

Конституционный ИИ основан на трёх различимых компонентах:

  • конституция — набор текстовых принципов, описывающих желательное и нежелательное поведение модели;
  • процедура постобучения — использование этих принципов для критики, исправления и ранжирования ответов;
  • система безопасности — дополнительные механизмы, которые могут использовать конституционные правила для фильтрации, модерации или обнаружения опасных запросов.

Важно различать эти уровни. Конституция сама по себе является нормативным документом. Постобучение превращает её в обучающий сигнал. Защитные подсистемы используют похожие правила уже на этапе применения модели.

Типичный конвейер обучения

В классической схеме CAI обучение включает две стадии.[1]

Самокритика и самопересмотр

Сначала модель генерирует ответ на запрос. Затем ей предъявляется один из принципов конституции, после чего модель должна:

  • указать, в чём ответ может нарушать принцип;
  • предложить исправленную версию;
  • сохранить полезность ответа там, где это возможно.

Например, если пользователь просит опасную инструкцию, модель должна не просто отказаться, а по возможности объяснить причину отказа и предложить безопасную альтернативу. Если запрос допустим, но ответ содержит чрезмерно уверенное утверждение, конституционный принцип может требовать более осторожной формулировки.

Обучение по ИИ-обратной связи

На следующем этапе модель генерирует несколько вариантов ответа, а ИИ-оценщик выбирает вариант, лучше соответствующий конституции. Из таких сравнений строится модель предпочтений, после чего основная модель дообучается методами обучения с подкреплением.

RLAIF

Обучение с подкреплением на основе обратной связи ИИ (англ. Reinforcement Learning from AI Feedback, RLAIF) — метод, в котором предпочтения для обучения формируются не человеком, а другой моделью или той же моделью в режиме оценивания. В конституционном ИИ RLAIF используется для выбора ответов, лучше согласованных с заданными принципами.[1]

Главное отличие от RLHF состоит в источнике обратной связи:

  • в RLHF ответы сравнивают люди;
  • в RLAIF ответы сравнивает ИИ-оценщик, действующий по заданным принципам.

Преимущество RLAIF — масштабируемость и снижение стоимости разметки. Ограничение — зависимость от качества оценщика: его ошибки, смещения и слепые зоны могут переноситься в итоговую модель. В сравнительных исследованиях было показано, что RLAIF на ряде задач может давать результаты, сопоставимые с RLHF, но не устраняет полностью проблему надёжного надзора.[1]

Формирование конституции

Конституция модели может формироваться различными способами.

Принципы, задаваемые разработчиками

В ранних работах по CAI принципы составлялись исследователями и разработчиками. Такой подход удобен инженерно: правила можно быстро изменять, уточнять и проверять. Однако он вызывает вопрос о том, чьи именно ценности и нормы встроены в модель.[1]

Коллективное участие

Коллективный конституционный ИИ (англ. Collective Constitutional AI) предполагает участие более широкой группы людей в формировании принципов. В работе Anthropic и Collective Intelligence Project была описана процедура, включающая выбор целевой аудитории, сбор предложений, агрегацию принципов и обучение модели на их основе.[1]

Такой подход стремится сделать нормы менее зависимыми от одной компании или исследовательской группы. При этом остаются сложные вопросы: кого считать представительной аудиторией, как согласовывать противоречивые мнения и как учитывать различия между странами, языками и социальными группами.

Примеры применения конституционных принципов

На практике конституционные принципы могут применяться в разных ситуациях.

  • Отказ от опасной инструкции. Если запрос связан с причинением вреда, модель должна отказаться выполнять инструкцию и объяснить причину отказа.
  • Безопасная переформулировка. Если пользователь задаёт рискованный, но потенциально допустимый вопрос, модель может перенаправить ответ к безопасной образовательной информации.
  • Выбор между допустимыми ответами. Если несколько ответов формально верны, предпочтение может отдаваться более честному, менее вводящему в заблуждение и более полезному варианту.
  • Уточнение неопределённости. Если модель не обладает достаточными основаниями для уверенного ответа, принцип может требовать указать степень неопределённости.

Публичным примером документа такого типа является Claude’s Constitution, где Anthropic описывает принципы, связанные с поведением модели, безопасностью, честностью и взаимодействием с пользователем.[1]

Оценивание конституционного ИИ

Модели, обученные с использованием конституционного подхода, обычно оцениваются по нескольким группам критериев:

  • полезность (англ. helpfulness) — способность отвечать на запросы пользователя по существу;
  • безвредность (англ. harmlessness) — склонность избегать опасных, незаконных или вредных инструкций;
  • честность (англ. honesty) — способность не выдавать неподтверждённые утверждения за достоверные;
  • устойчивость к обходу ограничений — сопротивление jailbreak-атакам и манипулятивным подсказкам.

Сравнение CAI, RLAIF и RLHF методологически сложно. Результат зависит от набора тестов, формулировок запросов, критериев оценивания, состава аннотаторов и качества ИИ-оценщика. Кроме того, высокое качество на стандартных тестах не гарантирует устойчивости в новых или специально атакующих сценариях.

Конституционный ИИ и безопасность

Конституционный ИИ является частью более широкой области безопасности ИИ. Он может снижать вероятность вредных ответов, но не является полной защитой. Особенно важны атаки типа jailbreak, когда пользователь пытается обойти ограничения модели с помощью специально подобранных инструкций.

Одним из направлений развития являются конституционные классификаторы (англ. constitutional classifiers) — защитные модели, обученные на синтетических данных, созданных по правилам конституции. В работе Anthropic такие классификаторы применялись для противодействия универсальным jailbreak-атакам.[1]

Применение вне обычного диалога

Хотя CAI чаще всего обсуждается применительно к диалоговым агентам, его идеи могут использоваться шире:

  • в системах модерации контента;
  • в классификаторах безопасности;
  • в фильтрации опасных запросов;
  • в оценивании ответов других моделей;
  • в управлении поведением агентных систем;
  • в тестировании моделей перед выпуском.

В этих случаях конституция выступает не только как инструкция для генеративной модели, но и как формализованное описание допустимого и недопустимого поведения.

Связь с model specifications

Конституционный ИИ близок к идее модельных спецификаций (англ. model specifications) — документов, описывающих желательное поведение модели в разных ситуациях. Например, OpenAI Model Spec задаёт правила и приоритеты поведения моделей в ChatGPT и API.[1]

Различие состоит в том, что модельная спецификация может быть в первую очередь документом для проектирования и оценки, тогда как конституционный ИИ предполагает прямое использование принципов в процессе постобучения, самокритики или ИИ-оценивания.

Связь с интерпретируемостью

Конституционный ИИ повышает прозрачность на уровне внешних норм: становится яснее, по каким принципам модель должна оценивать ответы и какие типы поведения считаются нежелательными. Однако это не означает полной интерпретируемости внутренних механизмов модели.

Конституция показывает, какие нормы были заданы, но не объясняет, какие внутренние представления и вычисления привели к конкретному ответу. Поэтому CAI дополняет, но не заменяет исследования механистической интерпретируемости и независимое тестирование моделей.

Культурная и нормативная зависимость

Конституция модели не является нейтральной в строгом смысле: она отражает определённый выбор ценностей, приоритетов и допустимых компромиссов. Для разных стран, языков, правовых систем и социальных групп могут различаться представления о допустимых ответах, границах свободы выражения, медицинских советах, политической информации или морально чувствительных темах.

Коллективный конституционный ИИ является одной из попыток учесть эту проблему, однако он не устраняет её полностью. Даже при общественном участии необходимо решать, кто участвует в выработке принципов, как агрегируются мнения и как разрешаются конфликты между безопасностью, полезностью и свободой пользователя.[1]

Ограничения

Основные ограничения конституционного ИИ включают:

  • неоднозначность естественно-языковых принципов;
  • трудность выбора универсальной конституции;
  • риск формального следования правилам без устойчивого понимания их смысла;
  • возможность переноса ошибок ИИ-оценщика в итоговую модель;
  • уязвимость к jailbreak-атакам;
  • отсутствие полной прозрачности внутренних механизмов модели.

Кроме того, CAI в основном улучшает наблюдаемое поведение модели, но не гарантирует решения проблемы внутреннего выравнивания.

Научные дискуссии

Вокруг конституционного ИИ обсуждаются несколько вопросов:

  • может ли ИИ-обратная связь заменить человеческий надзор;
  • насколько общими или детализированными должны быть принципы;
  • кто должен иметь право формулировать конституцию модели;
  • как проверять соответствие модели заявленным принципам;
  • можно ли применять одну и ту же конституцию в разных культурных и правовых контекстах.

Эти вопросы показывают, что CAI является не только инженерным методом, но и частью более широкой дискуссии об управлении, этике и безопасности искусственного интеллекта.

См. также

Примечания


Литература

  • Bai Y., Kadavath S., Kundu S. et al. Constitutional AI: Harmlessness from AI Feedback. arXiv:2212.08073, 2022.
  • Bai Y., Jones A., Ndousse K. et al. Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback. arXiv:2204.05862, 2022.
  • Huang S., Siddarth D., Lovitt L. et al. Collective Constitutional AI: Aligning a Language Model with Public Input. In: Proceedings of the 2024 ACM Conference on Fairness, Accountability, and Transparency, 2024.
  • Lee H., Phatale S., Mansoor H. et al. RLAIF vs. RLHF: Scaling Reinforcement Learning from Human Feedback with AI Feedback. In: Proceedings of the 41st International Conference on Machine Learning, 2024.
  • Ouyang L., Wu J., Jiang X. et al. Training Language Models to Follow Instructions with Human Feedback. arXiv:2203.02155, 2022.
  • Sharma M., Tong M., Mu J. et al. Constitutional Classifiers: Defending against Universal Jailbreaks across Thousands of Hours of Red Teaming. arXiv:2501.18837, 2025.

Ссылки

Личные инструменты