Эмерджентные способности больших языковых моделей

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
 
Строка 1: Строка 1:
-
'''Конституционный искусственный интеллект''' (англ. ''Constitutional AI'', CAI) — подход к [[выравнивание ИИ|выравниванию]] и [[безопасность искусственного интеллекта|безопасности искусственного интеллекта]], при котором желательное поведение модели задаётся через явно сформулированный набор принципов, правил или ценностных ориентиров — «конституцию». Такая конституция используется не только как описание желательного поведения, но и как источник обратной связи при обучении, критике и оценивании ответов модели.<ref>Bai Y., Kadavath S., Kundu S. et al. ''Constitutional AI: Harmlessness from AI Feedback''. arXiv:2212.08073, 2022. URL: https://arxiv.org/abs/2212.08073</ref>
+
{{well|Статья написана с использованием LLM '''GPT-5.4''' и проверена участником [[Участник:Aleksandorva Marina|Aleksandrova Marina]] 22:44, 30 июня 2026 (MSD)}}
 +
{{TOCright}}
-
Подход получил широкую известность после работ компании [[Anthropic]], где он был предложен как способ уменьшить зависимость от массовой человеческой разметки при обучении безопасных диалоговых моделей. В более широком смысле конституционный ИИ относится к методам, в которых поведение [[большая языковая модель|большой языковой модели]] регулируется через отдельную спецификацию норм, а не только через примеры из обучающих данных.<ref>Anthropic. ''Claude’s Constitution''. URL: https://www.anthropic.com/constitution</ref>
+
'''Эмерджентные способности больших языковых моделей''' — способности [[большая языковая модель|больших языковых моделей]] (англ. ''large language models'', LLM), которые слабо проявляются или не наблюдаются у меньших моделей, но становятся заметными при увеличении масштаба модели, объёма обучающих данных или вычислительного бюджета. В литературе такие способности часто связывают с переходом от плавного улучшения качества к качественно новому поведению модели на отдельных задачах.<ref>Wei J., Tay Y., Bommasani R. et al. ''Emergent Abilities of Large Language Models''. Transactions on Machine Learning Research, 2022. URL: https://arxiv.org/abs/2206.07682</ref>
-
== История ==
+
Понятие стало широко обсуждаться после появления крупных [[трансформер|трансформерных]] языковых моделей, включая GPT-3, PaLM, Gopher и Chinchilla. Эти модели показали, что увеличение масштаба может приводить не только к постепенному снижению ошибки предсказания следующего токена, но и к резкому росту качества на некоторых задачах: арифметике, логическом рассуждении, программировании, переводе, следовании инструкциям и [[обучение в контексте|обучении в контексте]].
-
Предпосылки конституционного ИИ связаны с развитием методов обучения по предпочтениям человека, прежде всего [[обучение с подкреплением на основе обратной связи человека|обучения с подкреплением на основе обратной связи человека]] (англ. ''Reinforcement Learning from Human Feedback'', RLHF). В работах по InstructGPT и сходным системам поведение модели улучшалось за счёт демонстраций и ранжирования ответов людьми.<ref>Ouyang L., Wu J., Jiang X. et al. ''Training Language Models to Follow Instructions with Human Feedback''. arXiv:2203.02155, 2022. URL: https://arxiv.org/abs/2203.02155</ref>
+
== Определение ==
-
Ограничения RLHF — высокая стоимость разметки, трудность масштабирования и зависимость от предпочтений конкретных аннотаторов — привели к поиску методов, где человек задаёт не множество частных оценок, а более общие правила. В работе ''Constitutional AI: Harmlessness from AI Feedback'' была предложена схема, в которой модель сначала критикует и исправляет собственные ответы по заданным принципам, а затем обучается с использованием ИИ-обратной связи.<ref>Bai Y., Kadavath S., Kundu S. et al. ''Constitutional AI: Harmlessness from AI Feedback''. arXiv:2212.08073, 2022. URL: https://arxiv.org/abs/2212.08073</ref>
+
В работе Джейсона Вэя и соавторов эмерджентная способность определяется как способность, которая отсутствует у меньших моделей, но присутствует у более крупных моделей того же семейства.<ref>Wei J., Tay Y., Bommasani R. et al. ''Emergent Abilities of Large Language Models''. Transactions on Machine Learning Research, 2022. URL: https://arxiv.org/abs/2206.07682</ref> Под «масштабом» обычно понимают сочетание нескольких факторов:
-
Позднее направление развивалось в нескольких линиях: сравнение RLAIF и RLHF, изучение общих и частных принципов конституции, коллективное формирование принципов с участием широкой аудитории и применение конституционного подхода в защитных классификаторах.<ref>Lee H., Phatale S., Mansoor H. et al. ''RLAIF vs. RLHF: Scaling Reinforcement Learning from Human Feedback with AI Feedback''. ICML 2024. URL: https://openreview.net/forum?id=uydQ2W41KO</ref><ref>Huang S., Siddarth D., Lovitt L. et al. ''Collective Constitutional AI: Aligning a Language Model with Public Input''. FAccT 2024. URL: https://arxiv.org/abs/2406.07814</ref>
+
* числа параметров модели;
 +
* объёма обучающих данных;
 +
* вычислительного бюджета обучения;
 +
* качества и разнообразия корпуса;
 +
* методов постобучения, включая [[обучение на инструкциях]] (англ. ''instruction tuning'') и [[обучение с подкреплением на основе обратной связи человека|RLHF]].
-
== Основные идеи ==
+
Важно отличать эмерджентность от обычного плавного роста качества. Если при увеличении модели точность постепенно повышается, это соответствует непрерывному эффекту масштабирования. Если же малые модели показывают почти случайный результат, а затем после некоторого масштаба качество резко возрастает, такой эффект часто называют эмерджентным.
-
Конституционный ИИ основан на трёх различимых компонентах:
+
== История понятия ==
-
* '''конституция''' — набор текстовых принципов, описывающих желательное и нежелательное поведение модели;
+
Предпосылки к обсуждению эмерджентных способностей возникли в исследованиях [[законы масштабирования|законов масштабирования]] (англ. ''scaling laws''). В работе Kaplan и соавторов было показано, что качество языковых моделей в среднем предсказуемо улучшается при росте числа параметров, данных и вычислений.<ref>Kaplan J., McCandlish S., Henighan T. et al. ''Scaling Laws for Neural Language Models''. arXiv:2001.08361, 2020. URL: https://arxiv.org/abs/2001.08361</ref>
-
* '''процедура постобучения''' — использование этих принципов для критики, исправления и ранжирования ответов;
+
-
* '''система безопасности''' — дополнительные механизмы, которые могут использовать конституционные правила для фильтрации, модерации или обнаружения опасных запросов.
+
-
Важно различать эти уровни. Конституция сама по себе является нормативным документом. Постобучение превращает её в обучающий сигнал. Защитные подсистемы используют похожие правила уже на этапе применения модели.
+
Позднее работа Hoffmann и соавторов о модели Chinchilla уточнила, что для эффективного масштабирования важно не только увеличивать размер модели, но и подбирать достаточный объём обучающих токенов.<ref>Hoffmann J., Borgeaud S., Mensch A. et al. ''Training Compute-Optimal Large Language Models''. Advances in Neural Information Processing Systems, 2022. URL: https://arxiv.org/abs/2203.15556</ref>
-
== Типичный конвейер обучения ==
+
Важным этапом стала публикация GPT-3, где было показано, что крупная языковая модель способна решать широкий круг задач в режимах [[zero-shot learning|zero-shot]] и [[few-shot learning|few-shot]] без дообучения на конкретной задаче.<ref>Brown T. B., Mann B., Ryder N. et al. ''Language Models are Few-Shot Learners''. Advances in Neural Information Processing Systems, 2020. URL: https://papers.neurips.cc/paper/2020/hash/1457c0d6bfcb4967418bfb8ac142f64a-Abstract.html</ref> После этого исследователи стали систематически изучать, какие способности появляются у моделей при увеличении масштаба.
-
В классической схеме CAI обучение включает две стадии.<ref>Bai Y., Kadavath S., Kundu S. et al. ''Constitutional AI: Harmlessness from AI Feedback''. arXiv:2212.08073, 2022. URL: https://arxiv.org/abs/2212.08073</ref>
+
== Связь с масштабированием ==
-
=== Самокритика и самопересмотр ===
+
Эмерджентные способности обычно рассматриваются в контексте масштабирования моделей. Однако масштаб не является единственным фактором. На результат влияют:
-
Сначала модель генерирует ответ на запрос. Затем ей предъявляется один из принципов конституции, после чего модель должна:
+
* архитектура модели;
 +
* качество и состав обучающих данных;
 +
* токенизация;
 +
* длительность обучения;
 +
* методы постобучения;
 +
* формат подсказки;
 +
* используемая метрика оценки.
-
* указать, в чём ответ может нарушать принцип;
+
Например, увеличение числа параметров без соответствующего увеличения обучающего корпуса может быть неэффективным. Исследования вычислительно-оптимального обучения показали, что для заданного бюджета вычислений меньшая модель, обученная на большем числе токенов, может превосходить более крупную, но недообученную модель.<ref>Hoffmann J., Borgeaud S., Mensch A. et al. ''Training Compute-Optimal Large Language Models''. Advances in Neural Information Processing Systems, 2022. URL: https://arxiv.org/abs/2203.15556</ref>
-
* предложить исправленную версию;
+
-
* сохранить полезность ответа там, где это возможно.
+
-
Например, если пользователь просит опасную инструкцию, модель должна не просто отказаться, а по возможности объяснить причину отказа и предложить безопасную альтернативу. Если запрос допустим, но ответ содержит чрезмерно уверенное утверждение, конституционный принцип может требовать более осторожной формулировки.
+
Таким образом, эмерджентность не следует сводить только к числу параметров. Она возникает из взаимодействия масштаба модели, данных, алгоритма обучения и процедуры оценки.
-
=== Обучение по ИИ-обратной связи ===
+
== Группы эмерджентных способностей ==
-
На следующем этапе модель генерирует несколько вариантов ответа, а ИИ-оценщик выбирает вариант, лучше соответствующий конституции. Из таких сравнений строится модель предпочтений, после чего основная модель дообучается методами [[обучение с подкреплением|обучения с подкреплением]].
+
=== Обучение в контексте ===
-
== RLAIF ==
+
'''Обучение в контексте''' (англ. ''in-context learning'') — способность модели выполнять новую задачу на основе инструкции или нескольких примеров, помещённых непосредственно в запрос, без изменения весов модели. В режиме zero-shot модель получает только описание задачи, а в режиме few-shot — несколько демонстраций входов и правильных ответов.
-
'''Обучение с подкреплением на основе обратной связи ИИ''' (англ. ''Reinforcement Learning from AI Feedback'', RLAIF) — метод, в котором предпочтения для обучения формируются не человеком, а другой моделью или той же моделью в режиме оценивания. В конституционном ИИ RLAIF используется для выбора ответов, лучше согласованных с заданными принципами.<ref>Lee H., Phatale S., Mansoor H. et al. ''RLAIF vs. RLHF: Scaling Reinforcement Learning from Human Feedback with AI Feedback''. ICML 2024. URL: https://openreview.net/forum?id=uydQ2W41KO</ref>
+
Эта способность считается возможным проявлением эмерджентности, поскольку у малых моделей она часто выражена слабо, а у крупных моделей может становиться заметным универсальным механизмом адаптации к новой задаче.<ref>Brown T. B., Mann B., Ryder N. et al. ''Language Models are Few-Shot Learners''. Advances in Neural Information Processing Systems, 2020. URL: https://papers.neurips.cc/paper/2020/hash/1457c0d6bfcb4967418bfb8ac142f64a-Abstract.html</ref>
-
Главное отличие от RLHF состоит в источнике обратной связи:
+
=== Рассуждение и решение задач ===
-
* в RLHF ответы сравнивают люди;
+
К этой группе относят арифметические задачи, логический вывод, многошаговые вопросы и задачи, требующие промежуточных рассуждений. Одним из известных методов является '''подсказка с цепочкой рассуждений''' (англ. ''chain-of-thought prompting''), при которой модель генерирует промежуточные шаги перед финальным ответом.<ref>Wei J., Wang X., Schuurmans D. et al. ''Chain-of-Thought Prompting Elicits Reasoning in Large Language Models''. Advances in Neural Information Processing Systems, 2022. URL: https://arxiv.org/abs/2201.11903</ref>
-
* в RLAIF ответы сравнивает ИИ-оценщик, действующий по заданным принципам.
+
-
Преимущество RLAIF — масштабируемость и снижение стоимости разметки. Ограничение — зависимость от качества оценщика: его ошибки, смещения и слепые зоны могут переноситься в итоговую модель. В сравнительных исследованиях было показано, что RLAIF на ряде задач может давать результаты, сопоставимые с RLHF, но не устраняет полностью проблему надёжного надзора.<ref>Lee H., Phatale S., Mansoor H. et al. ''RLAIF vs. RLHF: Scaling Reinforcement Learning from Human Feedback with AI Feedback''. ICML 2024. URL: https://openreview.net/forum?id=uydQ2W41KO</ref>
+
Такие способности называют эмерджентными, поскольку эффективность chain-of-thought-подсказок особенно заметна у крупных моделей, тогда как у малых моделей такой формат может не давать существенного улучшения.
-
== Формирование конституции ==
+
=== Программирование ===
-
Конституция модели может формироваться различными способами.
+
Большие языковые модели могут генерировать, дополнять и объяснять программный код. Для оценки таких способностей часто используется HumanEval — набор задач для проверки функциональной корректности программ, предложенный в работе о Codex.<ref>Chen M., Tworek J., Jun H. et al. ''Evaluating Large Language Models Trained on Code''. arXiv:2107.03374, 2021. URL: https://arxiv.org/abs/2107.03374</ref>
-
=== Принципы, задаваемые разработчиками ===
+
Программирование рассматривается как возможная эмерджентная способность, потому что оно требует сочетания языкового понимания, знания синтаксиса, работы с абстракциями и проверки логической структуры решения. При этом модели могут создавать ошибочный или небезопасный код, поэтому практическое применение требует тестирования и ревью.
-
В ранних работах по CAI принципы составлялись исследователями и разработчиками. Такой подход удобен инженерно: правила можно быстро изменять, уточнять и проверять. Однако он вызывает вопрос о том, чьи именно ценности и нормы встроены в модель.<ref>Bai Y., Kadavath S., Kundu S. et al. ''Constitutional AI: Harmlessness from AI Feedback''. arXiv:2212.08073, 2022. URL: https://arxiv.org/abs/2212.08073</ref>
+
=== Многоязычный перенос ===
-
=== Коллективное участие ===
+
'''Многоязычный перенос''' (англ. ''cross-lingual transfer'') означает способность модели использовать знания, полученные на одних языках или доменах, при работе с другими языками или предметными областями. Крупные модели часто демонстрируют улучшение перевода, суммаризации и ответов на вопросы в многоязычной среде.
-
'''Коллективный конституционный ИИ''' (англ. ''Collective Constitutional AI'') предполагает участие более широкой группы людей в формировании принципов. В работе Anthropic и Collective Intelligence Project была описана процедура, включающая выбор целевой аудитории, сбор предложений, агрегацию принципов и обучение модели на их основе.<ref>Huang S., Siddarth D., Lovitt L. et al. ''Collective Constitutional AI: Aligning a Language Model with Public Input''. FAccT 2024. URL: https://arxiv.org/abs/2406.07814</ref>
+
Эта способность может выглядеть эмерджентной, если качество на некоторых языках или языковых парах резко повышается только у моделей достаточно большого масштаба. Однако её трудно отделить от состава обучающих данных: если язык или задача были широко представлены в корпусе, результат может быть следствием обучения, а не нового обобщения.
-
Такой подход стремится сделать нормы менее зависимыми от одной компании или исследовательской группы. При этом остаются сложные вопросы: кого считать представительной аудиторией, как согласовывать противоречивые мнения и как учитывать различия между странами, языками и социальными группами.
+
=== Использование инструментов ===
-
== Примеры применения конституционных принципов ==
+
Современные LLM могут быть встроены в системы, где модель вызывает внешние инструменты: поисковые системы, калькуляторы, интерпретаторы кода, базы данных и API. Такая способность особенно важна для [[интеллектуальный агент|агентных систем]], где модель должна планировать действия, выбирать инструмент, интерпретировать результат и продолжать решение задачи.
-
На практике конституционные принципы могут применяться в разных ситуациях.
+
Использование инструментов не всегда возникает только из предварительного обучения: часто требуется специальная настройка, обучение на инструкциях или проектирование внешней среды. Поэтому его корректнее рассматривать как область, где масштаб модели взаимодействует с инженерными методами построения агентов.
-
* '''Отказ от опасной инструкции.''' Если запрос связан с причинением вреда, модель должна отказаться выполнять инструкцию и объяснить причину отказа.
+
== Бенчмарки и оценка ==
-
* '''Безопасная переформулировка.''' Если пользователь задаёт рискованный, но потенциально допустимый вопрос, модель может перенаправить ответ к безопасной образовательной информации.
+
-
* '''Выбор между допустимыми ответами.''' Если несколько ответов формально верны, предпочтение может отдаваться более честному, менее вводящему в заблуждение и более полезному варианту.
+
-
* '''Уточнение неопределённости.''' Если модель не обладает достаточными основаниями для уверенного ответа, принцип может требовать указать степень неопределённости.
+
-
Публичным примером документа такого типа является ''Claude’s Constitution'', где Anthropic описывает принципы, связанные с поведением модели, безопасностью, честностью и взаимодействием с пользователем.<ref>Anthropic. ''Claude’s Constitution''. URL: https://www.anthropic.com/constitution</ref>
+
Эмерджентные способности обычно изучаются на [[бенчмарк|бенчмарках]], проверяющих широкий набор навыков.
-
== Оценивание конституционного ИИ ==
+
К часто используемым наборам относятся:
-
Модели, обученные с использованием конституционного подхода, обычно оцениваются по нескольким группам критериев:
+
* '''BIG-Bench''' — большой набор задач для оценки и экстраполяции возможностей языковых моделей;<ref>Srivastava A. et al. ''Beyond the Imitation Game: Quantifying and Extrapolating the Capabilities of Language Models''. Transactions on Machine Learning Research, 2023. URL: https://arxiv.org/abs/2206.04615</ref>
 +
* '''MMLU''' — тест многозадачного понимания, включающий вопросы из разных областей знания;<ref>Hendrycks D., Burns C., Basart S. et al. ''Measuring Massive Multitask Language Understanding''. ICLR, 2021. URL: https://arxiv.org/abs/2009.03300</ref>
 +
* '''GSM8K''' — набор школьных математических задач, используемый для оценки многошагового рассуждения;<ref>Cobbe K., Kosaraju V., Bavarian M. et al. ''Training Verifiers to Solve Math Word Problems''. arXiv:2110.14168, 2021. URL: https://arxiv.org/abs/2110.14168</ref>
 +
* '''HumanEval''' — набор задач для оценки генерации программного кода.<ref>Chen M., Tworek J., Jun H. et al. ''Evaluating Large Language Models Trained on Code''. arXiv:2107.03374, 2021. URL: https://arxiv.org/abs/2107.03374</ref>
-
* '''полезность''' (англ. ''helpfulness'') — способность отвечать на запросы пользователя по существу;
+
Методологические трудности оценки включают:
-
* '''безвредность''' (англ. ''harmlessness'') — склонность избегать опасных, незаконных или вредных инструкций;
+
-
* '''честность''' (англ. ''honesty'') — способность не выдавать неподтверждённые утверждения за достоверные;
+
-
* '''устойчивость к обходу ограничений''' — сопротивление jailbreak-атакам и манипулятивным подсказкам.
+
-
Сравнение CAI, RLAIF и RLHF методологически сложно. Результат зависит от набора тестов, формулировок запросов, критериев оценивания, состава аннотаторов и качества ИИ-оценщика. Кроме того, высокое качество на стандартных тестах не гарантирует устойчивости в новых или специально атакующих сценариях.
+
* '''загрязнение тестов''' (англ. ''benchmark contamination''), когда тестовые примеры или их аналоги могли попасть в обучающие данные;
 +
* чувствительность к формулировке подсказки;
 +
* зависимость результата от формата ответа;
 +
* различия между одношаговой и многошаговой оценкой;
 +
* слабую воспроизводимость при закрытых моделях и неполной информации о данных обучения;
 +
* сложность сравнения моделей, обученных с разными методами постобучения.
-
== Конституционный ИИ и безопасность ==
+
Поэтому результат на бенчмарке нельзя автоматически считать доказательством истинной эмерджентности. Он показывает поведение модели в конкретной процедуре оценки.
-
Конституционный ИИ является частью более широкой области [[безопасность искусственного интеллекта|безопасности ИИ]]. Он может снижать вероятность вредных ответов, но не является полной защитой. Особенно важны атаки типа [[jailbreak]], когда пользователь пытается обойти ограничения модели с помощью специально подобранных инструкций.
+
== Критика понятия эмерджентности ==
-
Одним из направлений развития являются '''конституционные классификаторы''' (англ. ''constitutional classifiers'') — защитные модели, обученные на синтетических данных, созданных по правилам конституции. В работе Anthropic такие классификаторы применялись для противодействия универсальным jailbreak-атакам.<ref>Sharma M., Tong M., Mu J. et al. ''Constitutional Classifiers: Defending against Universal Jailbreaks across Thousands of Hours of Red Teaming''. arXiv:2501.18837, 2025. URL: https://arxiv.org/abs/2501.18837</ref>
+
Понятие эмерджентных способностей остаётся дискуссионным. Одна позиция состоит в том, что крупные модели действительно приобретают качественно новые возможности, которые трудно предсказать по поведению малых моделей.<ref>Wei J., Tay Y., Bommasani R. et al. ''Emergent Abilities of Large Language Models''. Transactions on Machine Learning Research, 2022. URL: https://arxiv.org/abs/2206.07682</ref>
-
== Применение вне обычного диалога ==
+
Альтернативная позиция утверждает, что некоторые «скачки» могут быть следствием выбора метрик и порогов оценки. В работе Schaeffer, Miranda и Koyejo показано, что при использовании дискретных или нелинейных метрик постепенное улучшение модели может выглядеть как резкий переход. Авторы называют такие эффекты возможным «миражом» эмерджентности.<ref>Schaeffer R., Miranda B., Koyejo S. ''Are Emergent Abilities of Large Language Models a Mirage?'' arXiv:2304.15004, 2023. URL: https://arxiv.org/abs/2304.15004</ref>
-
Хотя CAI чаще всего обсуждается применительно к диалоговым агентам, его идеи могут использоваться шире:
+
Например, если задача оценивается как полностью правильная или неправильная, небольшое улучшение вероятности правильного решения может долго не отражаться в итоговой метрике, а затем проявиться как резкий скачок. Поэтому для анализа эмерджентности важно рассматривать не только итоговую точность, но и более гладкие метрики: вероятность правильного ответа, частичные баллы, калибровку и устойчивость к переформулировкам.
-
* в системах модерации контента;
+
== Ограничения и открытые вопросы ==
-
* в классификаторах безопасности;
+
-
* в фильтрации опасных запросов;
+
-
* в оценивании ответов других моделей;
+
-
* в управлении поведением агентных систем;
+
-
* в тестировании моделей перед выпуском.
+
-
В этих случаях конституция выступает не только как инструкция для генеративной модели, но и как формализованное описание допустимого и недопустимого поведения.
+
=== Обобщение и запоминание ===
-
== Связь с model specifications ==
+
Остаётся открытым вопрос, в какой степени наблюдаемые способности являются результатом обобщения, а в какой — следствием запоминания похожих примеров из обучающих данных. Эта проблема особенно существенна для популярных бенчмарков, которые могли быть доступны в интернете до обучения модели.
-
Конституционный ИИ близок к идее '''модельных спецификаций''' (англ. ''model specifications'') — документов, описывающих желательное поведение модели в разных ситуациях. Например, OpenAI Model Spec задаёт правила и приоритеты поведения моделей в ChatGPT и API.<ref>OpenAI. ''Introducing the Model Spec''. 2024. URL: https://openai.com/index/introducing-the-model-spec/</ref>
+
=== Влияние подсказок ===
-
Различие состоит в том, что модельная спецификация может быть в первую очередь документом для проектирования и оценки, тогда как конституционный ИИ предполагает прямое использование принципов в процессе постобучения, самокритики или ИИ-оценивания.
+
Результаты LLM сильно зависят от подсказки. Изменение порядка примеров, формата ответа или стиля инструкции может заметно повлиять на качество. Это осложняет сравнение моделей и делает оценку эмерджентных способностей менее устойчивой.
-
== Связь с интерпретируемостью ==
+
=== Роль постобучения ===
-
Конституционный ИИ повышает прозрачность на уровне внешних норм: становится яснее, по каким принципам модель должна оценивать ответы и какие типы поведения считаются нежелательными. Однако это не означает полной [[интерпретируемость моделей|интерпретируемости]] внутренних механизмов модели.
+
Многие современные модели проходят instruction tuning, RLHF, фильтрацию данных и дополнительные этапы настройки. Поэтому трудно отделить способности, возникшие за счёт масштаба предварительного обучения, от способностей, появившихся в результате постобучения.
-
Конституция показывает, какие нормы были заданы, но не объясняет, какие внутренние представления и вычисления привели к конкретному ответу. Поэтому CAI дополняет, но не заменяет исследования механистической интерпретируемости и независимое тестирование моделей.
+
=== Интерпретируемость ===
-
== Культурная и нормативная зависимость ==
+
Внутренние механизмы LLM остаются слабо интерпретируемыми. Даже если модель успешно решает задачу, часто неизвестно, использует ли она устойчивый алгоритм, статистическую эвристику или воспроизводит похожий шаблон из данных. Это делает эмерджентные способности важной темой для [[интерпретируемость моделей|интерпретируемости]] и анализа внутренних представлений.
-
Конституция модели не является нейтральной в строгом смысле: она отражает определённый выбор ценностей, приоритетов и допустимых компромиссов. Для разных стран, языков, правовых систем и социальных групп могут различаться представления о допустимых ответах, границах свободы выражения, медицинских советах, политической информации или морально чувствительных темах.
+
== Значение для безопасности ИИ ==
-
Коллективный конституционный ИИ является одной из попыток учесть эту проблему, однако он не устраняет её полностью. Даже при общественном участии необходимо решать, кто участвует в выработке принципов, как агрегируются мнения и как разрешаются конфликты между безопасностью, полезностью и свободой пользователя.<ref>Huang S., Siddarth D., Lovitt L. et al. ''Collective Constitutional AI: Aligning a Language Model with Public Input''. FAccT 2024. URL: https://arxiv.org/abs/2406.07814</ref>
+
Эмерджентные способности имеют важное значение для [[безопасность искусственного интеллекта|безопасности ИИ]]. Если новые возможности появляются неожиданно, разработчикам сложнее заранее оценить риски, связанные с автономностью, убеждением, программированием, поиском уязвимостей или использованием инструментов.
-
== Ограничения ==
+
Для [[выравнивание ИИ|выравнивания ИИ]] эта тема важна потому, что поведение модели может изменяться качественно при переходе к большему масштабу. Модель, безопасная в малом варианте, не обязательно сохранит те же свойства после масштабирования. Поэтому необходимы систематические оценки, red teaming, тесты на надёжность и анализ поведения до развёртывания.
-
Основные ограничения конституционного ИИ включают:
+
В разработке [[интеллектуальный агент|агентов]] эмерджентные способности также важны: агентные системы объединяют языковую модель с памятью, планированием, внешними инструментами и средой исполнения. Даже если отдельная модель ограничена, её включение в контур действий может усилить практические возможности и риски системы.
-
* неоднозначность естественно-языковых принципов;
+
== Практическое значение ==
-
* трудность выбора универсальной конституции;
+
-
* риск формального следования правилам без устойчивого понимания их смысла;
+
-
* возможность переноса ошибок ИИ-оценщика в итоговую модель;
+
-
* уязвимость к jailbreak-атакам;
+
-
* отсутствие полной прозрачности внутренних механизмов модели.
+
-
Кроме того, CAI в основном улучшает наблюдаемое поведение модели, но не гарантирует решения проблемы внутреннего выравнивания.
+
Изучение эмерджентных способностей помогает:
-
== Научные дискуссии ==
+
* прогнозировать возможности будущих моделей;
 +
* строить более надёжные бенчмарки;
 +
* оценивать риски масштабирования;
 +
* разрабатывать методы контроля и выравнивания;
 +
* понимать ограничения LLM в программировании, науке, образовании и промышленности;
 +
* отличать реальные улучшения от артефактов оценки.
-
Вокруг конституционного ИИ обсуждаются несколько вопросов:
+
При этом эмерджентность не следует понимать как магическое или полностью необъяснимое явление. В большинстве случаев речь идёт о сложном взаимодействии масштаба, данных, архитектуры, обучения и метрики.
-
 
+
-
* может ли ИИ-обратная связь заменить человеческий надзор;
+
-
* насколько общими или детализированными должны быть принципы;
+
-
* кто должен иметь право формулировать конституцию модели;
+
-
* как проверять соответствие модели заявленным принципам;
+
-
* можно ли применять одну и ту же конституцию в разных культурных и правовых контекстах.
+
-
 
+
-
Эти вопросы показывают, что CAI является не только инженерным методом, но и частью более широкой дискуссии об управлении, этике и безопасности искусственного интеллекта.
+
== См. также ==
== См. также ==
* [[Большая языковая модель]]
* [[Большая языковая модель]]
 +
* [[Трансформер]]
 +
* [[Законы масштабирования]]
 +
* [[Обучение в контексте]]
 +
* [[Few-shot learning]]
 +
* [[Zero-shot learning]]
 +
* [[Chain-of-thought prompting]]
 +
* [[Бенчмарк]]
* [[Выравнивание ИИ]]
* [[Выравнивание ИИ]]
* [[Безопасность искусственного интеллекта]]
* [[Безопасность искусственного интеллекта]]
-
* [[Обучение с подкреплением на основе обратной связи человека]]
 
* [[Интерпретируемость моделей]]
* [[Интерпретируемость моделей]]
-
* [[Этика искусственного интеллекта]]
 
-
* [[Jailbreak]]
 
-
* [[Модерация контента]]
 
== Примечания ==
== Примечания ==
Строка 164: Строка 162:
== Литература ==
== Литература ==
-
* Bai Y., Kadavath S., Kundu S. et al. ''Constitutional AI: Harmlessness from AI Feedback''. arXiv:2212.08073, 2022.
+
* Brown T. B., Mann B., Ryder N. et al. ''Language Models are Few-Shot Learners''. Advances in Neural Information Processing Systems, 2020.
-
* Bai Y., Jones A., Ndousse K. et al. ''Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback''. arXiv:2204.05862, 2022.
+
* Kaplan J., McCandlish S., Henighan T. et al. ''Scaling Laws for Neural Language Models''. arXiv:2001.08361, 2020.
-
* Huang S., Siddarth D., Lovitt L. et al. ''Collective Constitutional AI: Aligning a Language Model with Public Input''. In: ''Proceedings of the 2024 ACM Conference on Fairness, Accountability, and Transparency'', 2024.
+
* Hoffmann J., Borgeaud S., Mensch A. et al. ''Training Compute-Optimal Large Language Models''. Advances in Neural Information Processing Systems, 2022.
-
* Lee H., Phatale S., Mansoor H. et al. ''RLAIF vs. RLHF: Scaling Reinforcement Learning from Human Feedback with AI Feedback''. In: ''Proceedings of the 41st International Conference on Machine Learning'', 2024.
+
* Wei J., Tay Y., Bommasani R. et al. ''Emergent Abilities of Large Language Models''. Transactions on Machine Learning Research, 2022.
-
* Ouyang L., Wu J., Jiang X. et al. ''Training Language Models to Follow Instructions with Human Feedback''. arXiv:2203.02155, 2022.
+
* Wei J., Wang X., Schuurmans D. et al. ''Chain-of-Thought Prompting Elicits Reasoning in Large Language Models''. Advances in Neural Information Processing Systems, 2022.
-
* Sharma M., Tong M., Mu J. et al. ''Constitutional Classifiers: Defending against Universal Jailbreaks across Thousands of Hours of Red Teaming''. arXiv:2501.18837, 2025.
+
* Srivastava A. et al. ''Beyond the Imitation Game: Quantifying and Extrapolating the Capabilities of Language Models''. Transactions on Machine Learning Research, 2023.
 +
* Hendrycks D., Burns C., Basart S. et al. ''Measuring Massive Multitask Language Understanding''. ICLR, 2021.
 +
* Cobbe K., Kosaraju V., Bavarian M. et al. ''Training Verifiers to Solve Math Word Problems''. arXiv:2110.14168, 2021.
 +
* Chen M., Tworek J., Jun H. et al. ''Evaluating Large Language Models Trained on Code''. arXiv:2107.03374, 2021.
 +
* Schaeffer R., Miranda B., Koyejo S. ''Are Emergent Abilities of Large Language Models a Mirage?'' arXiv:2304.15004, 2023.
== Ссылки ==
== Ссылки ==
-
* [https://arxiv.org/abs/2212.08073 Constitutional AI: Harmlessness from AI Feedback]
+
* [https://arxiv.org/abs/2206.07682 Emergent Abilities of Large Language Models]
-
* [https://arxiv.org/abs/2204.05862 Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback]
+
* [https://arxiv.org/abs/2304.15004 Are Emergent Abilities of Large Language Models a Mirage?]
-
* [https://openreview.net/forum?id=uydQ2W41KO RLAIF vs. RLHF: Scaling Reinforcement Learning from Human Feedback with AI Feedback]
+
* [https://arxiv.org/abs/2001.08361 Scaling Laws for Neural Language Models]
-
* [https://arxiv.org/abs/2406.07814 Collective Constitutional AI: Aligning a Language Model with Public Input]
+
* [https://arxiv.org/abs/2203.15556 Training Compute-Optimal Large Language Models]
-
* [https://arxiv.org/abs/2501.18837 Constitutional Classifiers: Defending against Universal Jailbreaks across Thousands of Hours of Red Teaming]
+
* [https://arxiv.org/abs/2201.11903 Chain-of-Thought Prompting Elicits Reasoning in Large Language Models]
-
* [https://www.anthropic.com/constitution Claude’s Constitution]
+
* [https://arxiv.org/abs/2206.04615 BIG-Bench: Beyond the Imitation Game]
-
* [https://openai.com/index/introducing-the-model-spec/ OpenAI Model Spec]
+
* [https://arxiv.org/abs/2009.03300 Measuring Massive Multitask Language Understanding]
 +
* [https://arxiv.org/abs/2110.14168 GSM8K: Training Verifiers to Solve Math Word Problems]
 +
* [https://arxiv.org/abs/2107.03374 HumanEval / Evaluating Large Language Models Trained on Code]

Текущая версия

Статья написана с использованием LLM GPT-5.4 и проверена участником Aleksandrova Marina 22:44, 30 июня 2026 (MSD)


Содержание

Эмерджентные способности больших языковых моделей — способности больших языковых моделей (англ. large language models, LLM), которые слабо проявляются или не наблюдаются у меньших моделей, но становятся заметными при увеличении масштаба модели, объёма обучающих данных или вычислительного бюджета. В литературе такие способности часто связывают с переходом от плавного улучшения качества к качественно новому поведению модели на отдельных задачах.[1]

Понятие стало широко обсуждаться после появления крупных трансформерных языковых моделей, включая GPT-3, PaLM, Gopher и Chinchilla. Эти модели показали, что увеличение масштаба может приводить не только к постепенному снижению ошибки предсказания следующего токена, но и к резкому росту качества на некоторых задачах: арифметике, логическом рассуждении, программировании, переводе, следовании инструкциям и обучении в контексте.

Определение

В работе Джейсона Вэя и соавторов эмерджентная способность определяется как способность, которая отсутствует у меньших моделей, но присутствует у более крупных моделей того же семейства.[1] Под «масштабом» обычно понимают сочетание нескольких факторов:

  • числа параметров модели;
  • объёма обучающих данных;
  • вычислительного бюджета обучения;
  • качества и разнообразия корпуса;
  • методов постобучения, включая обучение на инструкциях (англ. instruction tuning) и RLHF.

Важно отличать эмерджентность от обычного плавного роста качества. Если при увеличении модели точность постепенно повышается, это соответствует непрерывному эффекту масштабирования. Если же малые модели показывают почти случайный результат, а затем после некоторого масштаба качество резко возрастает, такой эффект часто называют эмерджентным.

История понятия

Предпосылки к обсуждению эмерджентных способностей возникли в исследованиях законов масштабирования (англ. scaling laws). В работе Kaplan и соавторов было показано, что качество языковых моделей в среднем предсказуемо улучшается при росте числа параметров, данных и вычислений.[1]

Позднее работа Hoffmann и соавторов о модели Chinchilla уточнила, что для эффективного масштабирования важно не только увеличивать размер модели, но и подбирать достаточный объём обучающих токенов.[1]

Важным этапом стала публикация GPT-3, где было показано, что крупная языковая модель способна решать широкий круг задач в режимах zero-shot и few-shot без дообучения на конкретной задаче.[1] После этого исследователи стали систематически изучать, какие способности появляются у моделей при увеличении масштаба.

Связь с масштабированием

Эмерджентные способности обычно рассматриваются в контексте масштабирования моделей. Однако масштаб не является единственным фактором. На результат влияют:

  • архитектура модели;
  • качество и состав обучающих данных;
  • токенизация;
  • длительность обучения;
  • методы постобучения;
  • формат подсказки;
  • используемая метрика оценки.

Например, увеличение числа параметров без соответствующего увеличения обучающего корпуса может быть неэффективным. Исследования вычислительно-оптимального обучения показали, что для заданного бюджета вычислений меньшая модель, обученная на большем числе токенов, может превосходить более крупную, но недообученную модель.[1]

Таким образом, эмерджентность не следует сводить только к числу параметров. Она возникает из взаимодействия масштаба модели, данных, алгоритма обучения и процедуры оценки.

Группы эмерджентных способностей

Обучение в контексте

Обучение в контексте (англ. in-context learning) — способность модели выполнять новую задачу на основе инструкции или нескольких примеров, помещённых непосредственно в запрос, без изменения весов модели. В режиме zero-shot модель получает только описание задачи, а в режиме few-shot — несколько демонстраций входов и правильных ответов.

Эта способность считается возможным проявлением эмерджентности, поскольку у малых моделей она часто выражена слабо, а у крупных моделей может становиться заметным универсальным механизмом адаптации к новой задаче.[1]

Рассуждение и решение задач

К этой группе относят арифметические задачи, логический вывод, многошаговые вопросы и задачи, требующие промежуточных рассуждений. Одним из известных методов является подсказка с цепочкой рассуждений (англ. chain-of-thought prompting), при которой модель генерирует промежуточные шаги перед финальным ответом.[1]

Такие способности называют эмерджентными, поскольку эффективность chain-of-thought-подсказок особенно заметна у крупных моделей, тогда как у малых моделей такой формат может не давать существенного улучшения.

Программирование

Большие языковые модели могут генерировать, дополнять и объяснять программный код. Для оценки таких способностей часто используется HumanEval — набор задач для проверки функциональной корректности программ, предложенный в работе о Codex.[1]

Программирование рассматривается как возможная эмерджентная способность, потому что оно требует сочетания языкового понимания, знания синтаксиса, работы с абстракциями и проверки логической структуры решения. При этом модели могут создавать ошибочный или небезопасный код, поэтому практическое применение требует тестирования и ревью.

Многоязычный перенос

Многоязычный перенос (англ. cross-lingual transfer) означает способность модели использовать знания, полученные на одних языках или доменах, при работе с другими языками или предметными областями. Крупные модели часто демонстрируют улучшение перевода, суммаризации и ответов на вопросы в многоязычной среде.

Эта способность может выглядеть эмерджентной, если качество на некоторых языках или языковых парах резко повышается только у моделей достаточно большого масштаба. Однако её трудно отделить от состава обучающих данных: если язык или задача были широко представлены в корпусе, результат может быть следствием обучения, а не нового обобщения.

Использование инструментов

Современные LLM могут быть встроены в системы, где модель вызывает внешние инструменты: поисковые системы, калькуляторы, интерпретаторы кода, базы данных и API. Такая способность особенно важна для агентных систем, где модель должна планировать действия, выбирать инструмент, интерпретировать результат и продолжать решение задачи.

Использование инструментов не всегда возникает только из предварительного обучения: часто требуется специальная настройка, обучение на инструкциях или проектирование внешней среды. Поэтому его корректнее рассматривать как область, где масштаб модели взаимодействует с инженерными методами построения агентов.

Бенчмарки и оценка

Эмерджентные способности обычно изучаются на бенчмарках, проверяющих широкий набор навыков.

К часто используемым наборам относятся:

  • BIG-Bench — большой набор задач для оценки и экстраполяции возможностей языковых моделей;[1]
  • MMLU — тест многозадачного понимания, включающий вопросы из разных областей знания;[1]
  • GSM8K — набор школьных математических задач, используемый для оценки многошагового рассуждения;[1]
  • HumanEval — набор задач для оценки генерации программного кода.[1]

Методологические трудности оценки включают:

  • загрязнение тестов (англ. benchmark contamination), когда тестовые примеры или их аналоги могли попасть в обучающие данные;
  • чувствительность к формулировке подсказки;
  • зависимость результата от формата ответа;
  • различия между одношаговой и многошаговой оценкой;
  • слабую воспроизводимость при закрытых моделях и неполной информации о данных обучения;
  • сложность сравнения моделей, обученных с разными методами постобучения.

Поэтому результат на бенчмарке нельзя автоматически считать доказательством истинной эмерджентности. Он показывает поведение модели в конкретной процедуре оценки.

Критика понятия эмерджентности

Понятие эмерджентных способностей остаётся дискуссионным. Одна позиция состоит в том, что крупные модели действительно приобретают качественно новые возможности, которые трудно предсказать по поведению малых моделей.[1]

Альтернативная позиция утверждает, что некоторые «скачки» могут быть следствием выбора метрик и порогов оценки. В работе Schaeffer, Miranda и Koyejo показано, что при использовании дискретных или нелинейных метрик постепенное улучшение модели может выглядеть как резкий переход. Авторы называют такие эффекты возможным «миражом» эмерджентности.[1]

Например, если задача оценивается как полностью правильная или неправильная, небольшое улучшение вероятности правильного решения может долго не отражаться в итоговой метрике, а затем проявиться как резкий скачок. Поэтому для анализа эмерджентности важно рассматривать не только итоговую точность, но и более гладкие метрики: вероятность правильного ответа, частичные баллы, калибровку и устойчивость к переформулировкам.

Ограничения и открытые вопросы

Обобщение и запоминание

Остаётся открытым вопрос, в какой степени наблюдаемые способности являются результатом обобщения, а в какой — следствием запоминания похожих примеров из обучающих данных. Эта проблема особенно существенна для популярных бенчмарков, которые могли быть доступны в интернете до обучения модели.

Влияние подсказок

Результаты LLM сильно зависят от подсказки. Изменение порядка примеров, формата ответа или стиля инструкции может заметно повлиять на качество. Это осложняет сравнение моделей и делает оценку эмерджентных способностей менее устойчивой.

Роль постобучения

Многие современные модели проходят instruction tuning, RLHF, фильтрацию данных и дополнительные этапы настройки. Поэтому трудно отделить способности, возникшие за счёт масштаба предварительного обучения, от способностей, появившихся в результате постобучения.

Интерпретируемость

Внутренние механизмы LLM остаются слабо интерпретируемыми. Даже если модель успешно решает задачу, часто неизвестно, использует ли она устойчивый алгоритм, статистическую эвристику или воспроизводит похожий шаблон из данных. Это делает эмерджентные способности важной темой для интерпретируемости и анализа внутренних представлений.

Значение для безопасности ИИ

Эмерджентные способности имеют важное значение для безопасности ИИ. Если новые возможности появляются неожиданно, разработчикам сложнее заранее оценить риски, связанные с автономностью, убеждением, программированием, поиском уязвимостей или использованием инструментов.

Для выравнивания ИИ эта тема важна потому, что поведение модели может изменяться качественно при переходе к большему масштабу. Модель, безопасная в малом варианте, не обязательно сохранит те же свойства после масштабирования. Поэтому необходимы систематические оценки, red teaming, тесты на надёжность и анализ поведения до развёртывания.

В разработке агентов эмерджентные способности также важны: агентные системы объединяют языковую модель с памятью, планированием, внешними инструментами и средой исполнения. Даже если отдельная модель ограничена, её включение в контур действий может усилить практические возможности и риски системы.

Практическое значение

Изучение эмерджентных способностей помогает:

  • прогнозировать возможности будущих моделей;
  • строить более надёжные бенчмарки;
  • оценивать риски масштабирования;
  • разрабатывать методы контроля и выравнивания;
  • понимать ограничения LLM в программировании, науке, образовании и промышленности;
  • отличать реальные улучшения от артефактов оценки.

При этом эмерджентность не следует понимать как магическое или полностью необъяснимое явление. В большинстве случаев речь идёт о сложном взаимодействии масштаба, данных, архитектуры, обучения и метрики.

См. также

Примечания


Литература

  • Brown T. B., Mann B., Ryder N. et al. Language Models are Few-Shot Learners. Advances in Neural Information Processing Systems, 2020.
  • Kaplan J., McCandlish S., Henighan T. et al. Scaling Laws for Neural Language Models. arXiv:2001.08361, 2020.
  • Hoffmann J., Borgeaud S., Mensch A. et al. Training Compute-Optimal Large Language Models. Advances in Neural Information Processing Systems, 2022.
  • Wei J., Tay Y., Bommasani R. et al. Emergent Abilities of Large Language Models. Transactions on Machine Learning Research, 2022.
  • Wei J., Wang X., Schuurmans D. et al. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. Advances in Neural Information Processing Systems, 2022.
  • Srivastava A. et al. Beyond the Imitation Game: Quantifying and Extrapolating the Capabilities of Language Models. Transactions on Machine Learning Research, 2023.
  • Hendrycks D., Burns C., Basart S. et al. Measuring Massive Multitask Language Understanding. ICLR, 2021.
  • Cobbe K., Kosaraju V., Bavarian M. et al. Training Verifiers to Solve Math Word Problems. arXiv:2110.14168, 2021.
  • Chen M., Tworek J., Jun H. et al. Evaluating Large Language Models Trained on Code. arXiv:2107.03374, 2021.
  • Schaeffer R., Miranda B., Koyejo S. Are Emergent Abilities of Large Language Models a Mirage? arXiv:2304.15004, 2023.

Ссылки

Личные инструменты