Эмерджентные способности больших языковых моделей

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
 
(1 промежуточная версия не показана)
Строка 1: Строка 1:
-
{{well|Статья написана с использованием LLM '''GPT-5.5''' и проверена участником [[Участник:Aleksandorva Marina|Aleksandrova Marina]] 21:41, 30 июня 2026 (MSD)}}
+
{{well|Статья написана с использованием LLM '''GPT-5.4''' и проверена участником [[Участник:Aleksandorva Marina|Aleksandrova Marina]] 22:44, 30 июня 2026 (MSD)}}
{{TOCright}}
{{TOCright}}
-
'''Сценарный анализ''' — метод исследования неопределённого будущего, при котором рассматривается не один прогноз, а несколько согласованных вариантов развития событий, основанных на разных допущениях о ключевых факторах, рисках и точках выбора. Сценарный анализ применяется в [[стратегическое планирование|стратегическом планировании]], [[управление рисками|управлении рисками]], [[прогнозирование|прогнозировании]], государственном управлении, энергетике, промышленности и технологической политике.
+
'''Эмерджентные способности больших языковых моделей''' — способности [[большая языковая модель|больших языковых моделей]] (англ. ''large language models'', LLM), которые слабо проявляются или не наблюдаются у меньших моделей, но становятся заметными при увеличении масштаба модели, объёма обучающих данных или вычислительного бюджета. В литературе такие способности часто связывают с переходом от плавного улучшения качества к качественно новому поведению модели на отдельных задачах.<ref>Wei J., Tay Y., Bommasani R. et al. ''Emergent Abilities of Large Language Models''. Transactions on Machine Learning Research, 2022. URL: https://arxiv.org/abs/2206.07682</ref>
-
В отличие от точечного прогноза, сценарный анализ не стремится угадать единственное «правильное» будущее. Его задача — описать набор правдоподобных траекторий и проверить, насколько устойчивыми будут решения в разных условиях. По этой причине сценарный анализ особенно важен в задачах, где велика роль неопределённости, структурных сдвигов, политических решений, технологических прорывов или редких событий.
+
Понятие стало широко обсуждаться после появления крупных [[трансформер|трансформерных]] языковых моделей, включая GPT-3, PaLM, Gopher и Chinchilla. Эти модели показали, что увеличение масштаба может приводить не только к постепенному снижению ошибки предсказания следующего токена, но и к резкому росту качества на некоторых задачах: арифметике, логическом рассуждении, программировании, переводе, следовании инструкциям и [[обучение в контексте|обучении в контексте]].
-
== История ==
+
== Определение ==
-
Истоки сценарного анализа обычно связывают с военным и стратегическим планированием середины XX века, в частности с работами [[RAND Corporation]] и Германа Кана. В корпоративной стратегии метод получил широкую известность благодаря практике [[Shell]], где сценарии стали использоваться для анализа мирового энергетического рынка и геополитических изменений. Работы Пьера Вака в 1970–1980-х годах сыграли ключевую роль в становлении сценарного планирования как управленческого метода.
+
В работе Джейсона Вэя и соавторов эмерджентная способность определяется как способность, которая отсутствует у меньших моделей, но присутствует у более крупных моделей того же семейства.<ref>Wei J., Tay Y., Bommasani R. et al. ''Emergent Abilities of Large Language Models''. Transactions on Machine Learning Research, 2022. URL: https://arxiv.org/abs/2206.07682</ref> Под «масштабом» обычно понимают сочетание нескольких факторов:
-
Позднее сценарный анализ стал активно применяться в энергетике, климатических исследованиях, макроэкономике, технологическом прогнозировании и государственной политике. В этой области известны, в частности, сценарии [[IPCC]], [[IEA]] и национальных аналитических центров, публикующих альтернативные траектории развития отраслей, технологий и стран.
+
* числа параметров модели;
 +
* объёма обучающих данных;
 +
* вычислительного бюджета обучения;
 +
* качества и разнообразия корпуса;
 +
* методов постобучения, включая [[обучение на инструкциях]] (англ. ''instruction tuning'') и [[обучение с подкреплением на основе обратной связи человека|RLHF]].
-
== Основная идея ==
+
Важно отличать эмерджентность от обычного плавного роста качества. Если при увеличении модели точность постепенно повышается, это соответствует непрерывному эффекту масштабирования. Если же малые модели показывают почти случайный результат, а затем после некоторого масштаба качество резко возрастает, такой эффект часто называют эмерджентным.
-
Сценарий — это не предсказание, а связное описание возможного будущего, построенное на системе предпосылок. Обычно сценарии формируются вокруг нескольких ключевых неопределённостей, например:
+
== История понятия ==
-
* темпы технологического прогресса;
+
Предпосылки к обсуждению эмерджентных способностей возникли в исследованиях [[законы масштабирования|законов масштабирования]] (англ. ''scaling laws''). В работе Kaplan и соавторов было показано, что качество языковых моделей в среднем предсказуемо улучшается при росте числа параметров, данных и вычислений.<ref>Kaplan J., McCandlish S., Henighan T. et al. ''Scaling Laws for Neural Language Models''. arXiv:2001.08361, 2020. URL: https://arxiv.org/abs/2001.08361</ref>
-
* изменение спроса;
+
-
* стоимость ресурсов;
+
-
* политическое регулирование;
+
-
* международная обстановка;
+
-
* поведение потребителей;
+
-
* экологические ограничения.
+
-
Сценарный анализ позволяет ответить на вопросы вида:
+
Позднее работа Hoffmann и соавторов о модели Chinchilla уточнила, что для эффективного масштабирования важно не только увеличивать размер модели, но и подбирать достаточный объём обучающих токенов.<ref>Hoffmann J., Borgeaud S., Mensch A. et al. ''Training Compute-Optimal Large Language Models''. Advances in Neural Information Processing Systems, 2022. URL: https://arxiv.org/abs/2203.15556</ref>
-
* какие варианты будущего являются правдоподобными;
+
Важным этапом стала публикация GPT-3, где было показано, что крупная языковая модель способна решать широкий круг задач в режимах [[zero-shot learning|zero-shot]] и [[few-shot learning|few-shot]] без дообучения на конкретной задаче.<ref>Brown T. B., Mann B., Ryder N. et al. ''Language Models are Few-Shot Learners''. Advances in Neural Information Processing Systems, 2020. URL: https://papers.neurips.cc/paper/2020/hash/1457c0d6bfcb4967418bfb8ac142f64a-Abstract.html</ref> После этого исследователи стали систематически изучать, какие способности появляются у моделей при увеличении масштаба.
-
* какие факторы сильнее всего влияют на результат;
+
-
* какие решения устойчивы сразу в нескольких сценариях;
+
-
* к каким рискам нужно готовиться заранее.
+
-
== Качественные и количественные методики ==
+
== Связь с масштабированием ==
-
Сценарный анализ принято делить на '''качественный''' и '''количественный'''. На практике часто используются смешанные схемы, но различие между этими двумя группами методов принципиально.
+
Эмерджентные способности обычно рассматриваются в контексте масштабирования моделей. Однако масштаб не является единственным фактором. На результат влияют:
-
=== Качественные методики ===
+
* архитектура модели;
 +
* качество и состав обучающих данных;
 +
* токенизация;
 +
* длительность обучения;
 +
* методы постобучения;
 +
* формат подсказки;
 +
* используемая метрика оценки.
-
Качественный сценарный анализ опирается на экспертное рассуждение, описание причинно-следственных связей, выделение драйверов изменений и построение альтернативных нарративов будущего. Его цель — не столько численный расчёт, сколько структурирование неопределённости и выявление принципиально разных траекторий развития.
+
Например, увеличение числа параметров без соответствующего увеличения обучающего корпуса может быть неэффективным. Исследования вычислительно-оптимального обучения показали, что для заданного бюджета вычислений меньшая модель, обученная на большем числе токенов, может превосходить более крупную, но недообученную модель.<ref>Hoffmann J., Borgeaud S., Mensch A. et al. ''Training Compute-Optimal Large Language Models''. Advances in Neural Information Processing Systems, 2022. URL: https://arxiv.org/abs/2203.15556</ref>
-
К качественным методикам относятся:
+
Таким образом, эмерджентность не следует сводить только к числу параметров. Она возникает из взаимодействия масштаба модели, данных, алгоритма обучения и процедуры оценки.
-
* экспертные сценарии;
+
== Группы эмерджентных способностей ==
-
* [[анализ «что-если»]];
+
-
* морфологический анализ;
+
-
* сценарные мастерские;
+
-
* анализ ключевых неопределённостей;
+
-
* кросс-импакт-анализ.
+
-
Преимущество качественного подхода состоит в том, что он позволяет учитывать слабо формализуемые факторы: политические конфликты, социальные изменения, институциональные барьеры, культурные сдвиги, научные прорывы и изменение ценностей. Недостаток — более высокая зависимость от состава экспертов и трудность строгой проверки результатов.
+
=== Обучение в контексте ===
-
=== Количественные методики ===
+
'''Обучение в контексте''' (англ. ''in-context learning'') — способность модели выполнять новую задачу на основе инструкции или нескольких примеров, помещённых непосредственно в запрос, без изменения весов модели. В режиме zero-shot модель получает только описание задачи, а в режиме few-shot — несколько демонстраций входов и правильных ответов.
-
Количественный сценарный анализ использует математические модели, статистические оценки, [[имитационное моделирование]], [[Монте-Карло]]-подходы, эконометрические модели, оптимизационные модели и системы уравнений. В этом случае сценарии задаются через различные значения параметров, а результат выражается в численной форме: объёмах производства, ценах, выбросах, спросе, вероятностях, доходности или потерях.
+
Эта способность считается возможным проявлением эмерджентности, поскольку у малых моделей она часто выражена слабо, а у крупных моделей может становиться заметным универсальным механизмом адаптации к новой задаче.<ref>Brown T. B., Mann B., Ryder N. et al. ''Language Models are Few-Shot Learners''. Advances in Neural Information Processing Systems, 2020. URL: https://papers.neurips.cc/paper/2020/hash/1457c0d6bfcb4967418bfb8ac142f64a-Abstract.html</ref>
-
К количественным методикам относятся:
+
=== Рассуждение и решение задач ===
-
* параметрический анализ чувствительности;
+
К этой группе относят арифметические задачи, логический вывод, многошаговые вопросы и задачи, требующие промежуточных рассуждений. Одним из известных методов является '''подсказка с цепочкой рассуждений''' (англ. ''chain-of-thought prompting''), при которой модель генерирует промежуточные шаги перед финальным ответом.<ref>Wei J., Wang X., Schuurmans D. et al. ''Chain-of-Thought Prompting Elicits Reasoning in Large Language Models''. Advances in Neural Information Processing Systems, 2022. URL: https://arxiv.org/abs/2201.11903</ref>
-
* стохастическое моделирование;
+
-
* сценарные деревья;
+
-
* [[decision tree|деревья решений]];
+
-
* вероятностные графовые модели;
+
-
* макроэкономические и отраслевые модели;
+
-
* энергетические и климатические модели.
+
-
Преимущество количественного подхода — возможность формального сравнения сценариев и расчёта последствий решений. Ограничение состоит в том, что численные модели требуют сильных предпосылок и могут плохо отражать структурные разрывы и качественно новые явления.
+
Такие способности называют эмерджентными, поскольку эффективность chain-of-thought-подсказок особенно заметна у крупных моделей, тогда как у малых моделей такой формат может не давать существенного улучшения.
-
== Типичная процедура сценарного анализа ==
+
=== Программирование ===
-
Во многих практических схемах сценарный анализ включает следующие этапы:
+
Большие языковые модели могут генерировать, дополнять и объяснять программный код. Для оценки таких способностей часто используется HumanEval — набор задач для проверки функциональной корректности программ, предложенный в работе о Codex.<ref>Chen M., Tworek J., Jun H. et al. ''Evaluating Large Language Models Trained on Code''. arXiv:2107.03374, 2021. URL: https://arxiv.org/abs/2107.03374</ref>
-
# определение объекта анализа и горизонта времени;
+
Программирование рассматривается как возможная эмерджентная способность, потому что оно требует сочетания языкового понимания, знания синтаксиса, работы с абстракциями и проверки логической структуры решения. При этом модели могут создавать ошибочный или небезопасный код, поэтому практическое применение требует тестирования и ревью.
-
# выявление ключевых факторов и заинтересованных сторон;
+
-
# выделение наиболее значимых неопределённостей;
+
-
# построение нескольких альтернативных сценариев;
+
-
# анализ последствий для стратегии, рисков и решений;
+
-
# выбор устойчивых мер, полезных в разных сценариях;
+
-
# регулярный пересмотр сценариев по мере появления новых данных.
+
-
== Применение в бизнесе ==
+
=== Многоязычный перенос ===
-
В бизнесе сценарный анализ используется для стратегического планирования в условиях нестабильного рынка. Наиболее известный пример связан с компанией [[Shell]], которая применяла сценарное планирование для анализа энергетических и геополитических изменений. В литературе часто указывается, что такая работа помогла руководству компании лучше подготовиться к последствиям нефтяного кризиса 1970-х годов.
+
'''Многоязычный перенос''' (англ. ''cross-lingual transfer'') означает способность модели использовать знания, полученные на одних языках или доменах, при работе с другими языками или предметными областями. Крупные модели часто демонстрируют улучшение перевода, суммаризации и ответов на вопросы в многоязычной среде.
-
Современные бизнес-приложения сценарного анализа включают:
+
Эта способность может выглядеть эмерджентной, если качество на некоторых языках или языковых парах резко повышается только у моделей достаточно большого масштаба. Однако её трудно отделить от состава обучающих данных: если язык или задача были широко представлены в корпусе, результат может быть следствием обучения, а не нового обобщения.
-
* оценку устойчивости стратегии компании при изменении цен и спроса;
+
=== Использование инструментов ===
-
* анализ последствий выхода новых технологий;
+
-
* планирование инвестиций при высокой неопределённости;
+
-
* разработку продуктовой стратегии;
+
-
* анализ цепочек поставок и логистических рисков;
+
-
* оценку регуляторных и геополитических шоков.
+
-
Например, в энергетическом и сырьевом бизнесе сценарии используются для проверки инвестиционных решений при разных ценах на нефть, газ, электроэнергию, углерод и оборудование. В финансовом секторе сценарный анализ применяется для стресс-тестирования и оценки рисков портфеля.
+
Современные LLM могут быть встроены в системы, где модель вызывает внешние инструменты: поисковые системы, калькуляторы, интерпретаторы кода, базы данных и API. Такая способность особенно важна для [[интеллектуальный агент|агентных систем]], где модель должна планировать действия, выбирать инструмент, интерпретировать результат и продолжать решение задачи.
-
== Применение в промышленности ==
+
Использование инструментов не всегда возникает только из предварительного обучения: часто требуется специальная настройка, обучение на инструкциях или проектирование внешней среды. Поэтому его корректнее рассматривать как область, где масштаб модели взаимодействует с инженерными методами построения агентов.
-
В промышленности сценарный анализ помогает оценивать развитие технологий, спроса, поставок и инфраструктуры. Особенно важен он в капиталоёмких секторах, где решения принимаются на годы вперёд.
+
== Бенчмарки и оценка ==
-
Типичные задачи:
+
Эмерджентные способности обычно изучаются на [[бенчмарк|бенчмарках]], проверяющих широкий набор навыков.
-
* выбор производственных мощностей при разных сценариях спроса;
+
К часто используемым наборам относятся:
-
* оценка последствий дефицита сырья и комплектующих;
+
-
* планирование автоматизации и цифровизации;
+
-
* анализ устойчивости производственной цепочки;
+
-
* оценка сценариев энергопотребления и декарбонизации.
+
-
Известные примеры можно найти в энергетике и тяжёлой промышленности. Международное энергетическое агентство публикует долгосрочные сценарии по секторам и регионам, включая промышленность, транспорт и электроэнергетику. Такие сценарии используются государствами, компаниями и аналитическими центрами для оценки возможных путей энергоперехода.
+
* '''BIG-Bench''' — большой набор задач для оценки и экстраполяции возможностей языковых моделей;<ref>Srivastava A. et al. ''Beyond the Imitation Game: Quantifying and Extrapolating the Capabilities of Language Models''. Transactions on Machine Learning Research, 2023. URL: https://arxiv.org/abs/2206.04615</ref>
 +
* '''MMLU''' — тест многозадачного понимания, включающий вопросы из разных областей знания;<ref>Hendrycks D., Burns C., Basart S. et al. ''Measuring Massive Multitask Language Understanding''. ICLR, 2021. URL: https://arxiv.org/abs/2009.03300</ref>
 +
* '''GSM8K''' — набор школьных математических задач, используемый для оценки многошагового рассуждения;<ref>Cobbe K., Kosaraju V., Bavarian M. et al. ''Training Verifiers to Solve Math Word Problems''. arXiv:2110.14168, 2021. URL: https://arxiv.org/abs/2110.14168</ref>
 +
* '''HumanEval''' — набор задач для оценки генерации программного кода.<ref>Chen M., Tworek J., Jun H. et al. ''Evaluating Large Language Models Trained on Code''. arXiv:2107.03374, 2021. URL: https://arxiv.org/abs/2107.03374</ref>
-
== Сценарии для крупных объектов: наука, отрасль, страна ==
+
Методологические трудности оценки включают:
-
Сценарный анализ особенно важен для крупных и сложных объектов, где взаимодействуют технологии, экономика, политика и общество.
+
* '''загрязнение тестов''' (англ. ''benchmark contamination''), когда тестовые примеры или их аналоги могли попасть в обучающие данные;
 +
* чувствительность к формулировке подсказки;
 +
* зависимость результата от формата ответа;
 +
* различия между одношаговой и многошаговой оценкой;
 +
* слабую воспроизводимость при закрытых моделях и неполной информации о данных обучения;
 +
* сложность сравнения моделей, обученных с разными методами постобучения.
-
=== Область науки ===
+
Поэтому результат на бенчмарке нельзя автоматически считать доказательством истинной эмерджентности. Он показывает поведение модели в конкретной процедуре оценки.
-
Для научных направлений сценарии применяются при оценке темпов развития, изменения исследовательской инфраструктуры, доступности вычислительных ресурсов и кадровых сдвигов. Например, в обсуждении будущего [[искусственный интеллект|искусственного интеллекта]] используются сценарии, различающиеся по темпам роста вычислительных мощностей, доступности данных, усилению регулирования и степени распространения агентных систем.
+
== Критика понятия эмерджентности ==
-
=== Отрасль ===
+
Понятие эмерджентных способностей остаётся дискуссионным. Одна позиция состоит в том, что крупные модели действительно приобретают качественно новые возможности, которые трудно предсказать по поведению малых моделей.<ref>Wei J., Tay Y., Bommasani R. et al. ''Emergent Abilities of Large Language Models''. Transactions on Machine Learning Research, 2022. URL: https://arxiv.org/abs/2206.07682</ref>
-
Для отраслей сценарии помогают оценивать возможные траектории структурной трансформации. В энергетике классическим примером являются долгосрочные сценарии [[IEA]] и [[EIA]], где рассматриваются альтернативные пути развития мирового и национального энергобаланса при разных технологических и политических условиях. В таких работах сопоставляются сценарии действующей политики, ускоренного перехода и более жёстких климатических ограничений.
+
Альтернативная позиция утверждает, что некоторые «скачки» могут быть следствием выбора метрик и порогов оценки. В работе Schaeffer, Miranda и Koyejo показано, что при использовании дискретных или нелинейных метрик постепенное улучшение модели может выглядеть как резкий переход. Авторы называют такие эффекты возможным «миражом» эмерджентности.<ref>Schaeffer R., Miranda B., Koyejo S. ''Are Emergent Abilities of Large Language Models a Mirage?'' arXiv:2304.15004, 2023. URL: https://arxiv.org/abs/2304.15004</ref>
-
=== Страна ===
+
Например, если задача оценивается как полностью правильная или неправильная, небольшое улучшение вероятности правильного решения может долго не отражаться в итоговой метрике, а затем проявиться как резкий скачок. Поэтому для анализа эмерджентности важно рассматривать не только итоговую точность, но и более гладкие метрики: вероятность правильного ответа, частичные баллы, калибровку и устойчивость к переформулировкам.
-
На уровне страны сценарный анализ используется в макроэкономике, демографии, энергетике, климатической политике и национальной безопасности. В климатических исследованиях широко известны сценарные семейства [[IPCC]], применяемые для анализа выбросов, температуры, адаптации и мер по смягчению последствий изменения климата. Такие сценарии не предсказывают единственную траекторию, а показывают диапазон возможных путей развития мировой и национальных систем.
+
== Ограничения и открытые вопросы ==
-
== Качественный сценарный анализ для развития искусственного интеллекта ==
+
=== Обобщение и запоминание ===
-
Качественные сценарии активно применяются к анализу будущего [[искусственный интеллект|искусственного интеллекта]]. В этой области особенно важны факторы, которые трудно описать одной формулой: темпы научных прорывов, структура рынка, регуляторные ограничения, военное применение, международная конкуренция, общественное доверие и готовность институтов к внедрению ИИ.
+
Остаётся открытым вопрос, в какой степени наблюдаемые способности являются результатом обобщения, а в какой — следствием запоминания похожих примеров из обучающих данных. Эта проблема особенно существенна для популярных бенчмарков, которые могли быть доступны в интернете до обучения модели.
-
Возможный качественный анализ обычно строится вокруг двух групп вопросов:
+
=== Влияние подсказок ===
-
'''Возможности:'''
+
Результаты LLM сильно зависят от подсказки. Изменение порядка примеров, формата ответа или стиля инструкции может заметно повлиять на качество. Это осложняет сравнение моделей и делает оценку эмерджентных способностей менее устойчивой.
-
* рост производительности;
+
-
* автоматизация рутинных интеллектуальных задач;
+
-
* ускорение научных исследований;
+
-
* улучшение диагностики, анализа данных и проектирования;
+
-
* расширение доступа к образовательным и экспертным системам.
+
-
'''Угрозы:'''
+
=== Роль постобучения ===
-
* усиление ошибок и предвзятостей в масштабных системах;
+
-
* концентрация технологической власти;
+
-
* информационные манипуляции;
+
-
* риски для занятости и структуры рынка труда;
+
-
* новые уязвимости в области безопасности и управления.
+
-
Для обсуждения таких траекторий используются государственные и международные форсайт-документы. В частности, сценарный подход к будущему ИИ применяется в материалах правительственных аналитических центров и международных организаций, где рассматриваются одновременно риски и потенциальные выгоды технологического развития.
+
Многие современные модели проходят instruction tuning, RLHF, фильтрацию данных и дополнительные этапы настройки. Поэтому трудно отделить способности, возникшие за счёт масштаба предварительного обучения, от способностей, появившихся в результате постобучения.
-
== Сценарный анализ на основе графа вариантов развития ==
+
=== Интерпретируемость ===
-
Отдельный класс методов связан с построением '''графа вариантов развития событий''', где вершины соответствуют состояниям системы или ключевым событиям, а рёбра — возможным переходам между ними. На рёбрах или вершинах могут задаваться вероятности, издержки, выигрыши, временные задержки и условия перехода.
+
Внутренние механизмы LLM остаются слабо интерпретируемыми. Даже если модель успешно решает задачу, часто неизвестно, использует ли она устойчивый алгоритм, статистическую эвристику или воспроизводит похожий шаблон из данных. Это делает эмерджентные способности важной темой для [[интерпретируемость моделей|интерпретируемости]] и анализа внутренних представлений.
-
К таким подходам относятся:
+
== Значение для безопасности ИИ ==
-
* [[дерево решений]] (decision tree);
+
Эмерджентные способности имеют важное значение для [[безопасность искусственного интеллекта|безопасности ИИ]]. Если новые возможности появляются неожиданно, разработчикам сложнее заранее оценить риски, связанные с автономностью, убеждением, программированием, поиском уязвимостей или использованием инструментов.
-
* сценарные деревья;
+
-
* [[influence diagram|диаграммы влияния]];
+
-
* вероятностные графовые модели;
+
-
* графы переходов состояний.
+
-
В простейшем случае сценарий представляется как дерево: после каждого ключевого выбора или внешнего события система переходит в одну из нескольких ветвей. Каждой ветви может быть сопоставлена вероятность, а в листьях дерева — итоговый результат. Это позволяет:
+
Для [[выравнивание ИИ|выравнивания ИИ]] эта тема важна потому, что поведение модели может изменяться качественно при переходе к большему масштабу. Модель, безопасная в малом варианте, не обязательно сохранит те же свойства после масштабирования. Поэтому необходимы систематические оценки, red teaming, тесты на надёжность и анализ поведения до развёртывания.
-
* оценивать ожидаемые последствия решений;
+
В разработке [[интеллектуальный агент|агентов]] эмерджентные способности также важны: агентные системы объединяют языковую модель с памятью, планированием, внешними инструментами и средой исполнения. Даже если отдельная модель ограничена, её включение в контур действий может усилить практические возможности и риски системы.
-
* сравнивать стратегии;
+
-
* проводить анализ чувствительности;
+
-
* вычислять ожидаемую полезность;
+
-
* выявлять наиболее критические развилки.
+
-
Такие методы особенно полезны в задачах [[принятие решений|принятия решений]] под неопределённостью, в инвестиционном анализе, логистике, энергетике и управлении сложными проектами. В более сложных моделях граф строится по этапам, а вероятности уточняются на основе статистики, экспертных оценок или байесовского пересчёта.
+
== Практическое значение ==
-
== Связь с машинным обучением ==
+
Изучение эмерджентных способностей помогает:
-
Хотя сценарный анализ исторически возник вне [[машинное обучение|машинного обучения]], сегодня он всё чаще сочетается с методами анализа данных. Возможны несколько форм такой интеграции:
+
* прогнозировать возможности будущих моделей;
 +
* строить более надёжные бенчмарки;
 +
* оценивать риски масштабирования;
 +
* разрабатывать методы контроля и выравнивания;
 +
* понимать ограничения LLM в программировании, науке, образовании и промышленности;
 +
* отличать реальные улучшения от артефактов оценки.
-
* использование прогнозных моделей для задания параметров сценариев;
+
При этом эмерджентность не следует понимать как магическое или полностью необъяснимое явление. В большинстве случаев речь идёт о сложном взаимодействии масштаба, данных, архитектуры, обучения и метрики.
-
* применение [[кластеризация|кластеризации]] для выделения типовых режимов развития;
+
-
* использование генеративных моделей и симуляторов для синтеза возможных траекторий;
+
-
* оценка вероятностей сценарных ветвей по историческим данным;
+
-
* использование [[обучение с подкреплением|обучения с подкреплением]] и имитационного моделирования для анализа стратегий в сценарной среде.
+
-
При этом сценарный анализ не сводится к предсказательной модели. Его цель — не только оценить наиболее вероятный исход, но и подготовить решение к менее вероятным, но значимым вариантам будущего.
+
== См. также ==
-
== Преимущества ==
+
* [[Большая языковая модель]]
-
 
+
* [[Трансформер]]
-
К основным достоинствам сценарного анализа относятся:
+
* [[Законы масштабирования]]
-
 
+
* [[Обучение в контексте]]
-
* работа с глубокой неопределённостью;
+
* [[Few-shot learning]]
-
* возможность учитывать качественные факторы;
+
* [[Zero-shot learning]]
-
* поддержка стратегических решений;
+
* [[Chain-of-thought prompting]]
-
* выявление скрытых рисков;
+
* [[Бенчмарк]]
-
* проверка устойчивости стратегии;
+
* [[Выравнивание ИИ]]
-
* лучшее понимание долгосрочных последствий решений.
+
* [[Безопасность искусственного интеллекта]]
-
 
+
* [[Интерпретируемость моделей]]
-
== Ограничения ==
+
-
 
+
-
Сценарный анализ имеет и существенные ограничения.
+
-
 
+
-
* Сценарии не устраняют неопределённость, а лишь структурируют её.
+
-
* Качественные сценарии могут зависеть от состава экспертов и скрытых предпосылок.
+
-
* Количественные модели чувствительны к параметрам и структуре модели.
+
-
* Вероятности в долгосрочных сценариях нередко задаются приблизительно.
+
-
* Сценарии могут создавать ложное ощущение полноты рассмотрения будущего.
+
-
* Сложно проверить, насколько хорошо сценарий отражает ещё не наступившую реальность.
+
-
 
+
-
== Научные дискуссии ==
+
-
 
+
-
Вокруг сценарного анализа существуют несколько устойчивых дискуссий.
+
-
 
+
-
Во-первых, обсуждается вопрос, следует ли назначать вероятности качественным сценариям. Часть исследователей считает это полезным, поскольку вероятности позволяют сравнивать решения формально. Другие указывают, что в условиях глубокой неопределённости такие вероятности часто слишком условны.
+
-
 
+
-
Во-вторых, обсуждается соотношение сценариев и прогнозов. Сценарный анализ иногда ошибочно воспринимается как слабая форма прогнозирования, хотя в действительности он решает иную задачу: исследование пространства возможных будущих состояний.
+
-
 
+
-
В-третьих, ведётся спор о том, насколько сценарии должны быть реалистичными или, напротив, «растягивающими мышление». В стратегическом планировании часто ценятся не только наиболее вероятные, но и пограничные сценарии, позволяющие заранее увидеть скрытые уязвимости.
+
-
 
+
-
== См. также ==
+
-
* [[Прогнозирование]]
+
== Примечания ==
-
* [[Стратегическое планирование]]
+
<references />
-
* [[Управление рисками]]
+
-
* [[Анализ «что-если»]]
+
-
* [[Дерево решений]]
+
-
* [[Диаграмма влияния]]
+
-
* [[Имитационное моделирование]]
+
-
* [[Монте-Карло]]
+
-
* [[Системная динамика]]
+
-
* [[Форсайт]]
+
== Литература ==
== Литература ==
-
* Wack P. ''Scenarios: Uncharted Waters Ahead''. Harvard Business Review, 1985.
+
* Brown T. B., Mann B., Ryder N. et al. ''Language Models are Few-Shot Learners''. Advances in Neural Information Processing Systems, 2020.
-
* Wack P. ''Scenarios: Shooting the Rapids''. Harvard Business Review, 1985.
+
* Kaplan J., McCandlish S., Henighan T. et al. ''Scaling Laws for Neural Language Models''. arXiv:2001.08361, 2020.
-
* Schoemaker P. J. H. ''Scenario Planning: A Tool for Strategic Thinking''. Sloan Management Review, 1995.
+
* Hoffmann J., Borgeaud S., Mensch A. et al. ''Training Compute-Optimal Large Language Models''. Advances in Neural Information Processing Systems, 2022.
-
* van der Heijden K. ''Scenarios: The Art of Strategic Conversation''. 2nd ed. Wiley, 2005.
+
* Wei J., Tay Y., Bommasani R. et al. ''Emergent Abilities of Large Language Models''. Transactions on Machine Learning Research, 2022.
-
* Wilkinson A., Kupers R. ''The Essence of Scenarios: Learning from the Shell Experience''. Amsterdam University Press, 2013.
+
* Wei J., Wang X., Schuurmans D. et al. ''Chain-of-Thought Prompting Elicits Reasoning in Large Language Models''. Advances in Neural Information Processing Systems, 2022.
-
* Jefferson M. ''Shell scenarios: What really happened in the 1970s and what may be learned for current world prospects''. Technological Forecasting and Social Change, 2012.
+
* Srivastava A. et al. ''Beyond the Imitation Game: Quantifying and Extrapolating the Capabilities of Language Models''. Transactions on Machine Learning Research, 2023.
-
* Bradfield R., Wright G., Burt G., Cairns G., van der Heijden K. ''The origins and evolution of scenario techniques in long range business planning''. Futures, 2005.
+
* Hendrycks D., Burns C., Basart S. et al. ''Measuring Massive Multitask Language Understanding''. ICLR, 2021.
-
* Ramirez R., Wilkinson A. ''Strategic Reframing: The Oxford Scenario Planning Approach''. Oxford University Press, 2016.
+
* Cobbe K., Kosaraju V., Bavarian M. et al. ''Training Verifiers to Solve Math Word Problems''. arXiv:2110.14168, 2021.
-
* Howard R. A., Matheson J. E. ''Influence Diagrams''. In: Readings on the Principles and Applications of Decision Analysis. Strategic Decisions Group, 1984.
+
* Chen M., Tworek J., Jun H. et al. ''Evaluating Large Language Models Trained on Code''. arXiv:2107.03374, 2021.
-
* Kaut M., Wallace S. W. ''Evaluation of scenario-generation methods for stochastic programming''. Pacific Journal of Optimization, 2007.
+
* Schaeffer R., Miranda B., Koyejo S. ''Are Emergent Abilities of Large Language Models a Mirage?'' arXiv:2304.15004, 2023.
== Ссылки ==
== Ссылки ==
-
* Harvard Business Review — статьи Пьера Вака о сценариях
+
* [https://arxiv.org/abs/2206.07682 Emergent Abilities of Large Language Models]
-
* Shell Scenarios — материалы по истории и практике сценарного планирования
+
* [https://arxiv.org/abs/2304.15004 Are Emergent Abilities of Large Language Models a Mirage?]
-
* International Energy Agency — World Energy Outlook
+
* [https://arxiv.org/abs/2001.08361 Scaling Laws for Neural Language Models]
-
* U.S. Energy Information Administration — Annual Energy Outlook
+
* [https://arxiv.org/abs/2203.15556 Training Compute-Optimal Large Language Models]
-
* IPCC — сценарии выбросов и климатического развития
+
* [https://arxiv.org/abs/2201.11903 Chain-of-Thought Prompting Elicits Reasoning in Large Language Models]
-
* OECD — материалы по сценариям и стратегическому анализу развития искусственного интеллекта
+
* [https://arxiv.org/abs/2206.04615 BIG-Bench: Beyond the Imitation Game]
 +
* [https://arxiv.org/abs/2009.03300 Measuring Massive Multitask Language Understanding]
 +
* [https://arxiv.org/abs/2110.14168 GSM8K: Training Verifiers to Solve Math Word Problems]
 +
* [https://arxiv.org/abs/2107.03374 HumanEval / Evaluating Large Language Models Trained on Code]

Текущая версия

Статья написана с использованием LLM GPT-5.4 и проверена участником Aleksandrova Marina 22:44, 30 июня 2026 (MSD)


Содержание

Эмерджентные способности больших языковых моделей — способности больших языковых моделей (англ. large language models, LLM), которые слабо проявляются или не наблюдаются у меньших моделей, но становятся заметными при увеличении масштаба модели, объёма обучающих данных или вычислительного бюджета. В литературе такие способности часто связывают с переходом от плавного улучшения качества к качественно новому поведению модели на отдельных задачах.[1]

Понятие стало широко обсуждаться после появления крупных трансформерных языковых моделей, включая GPT-3, PaLM, Gopher и Chinchilla. Эти модели показали, что увеличение масштаба может приводить не только к постепенному снижению ошибки предсказания следующего токена, но и к резкому росту качества на некоторых задачах: арифметике, логическом рассуждении, программировании, переводе, следовании инструкциям и обучении в контексте.

Определение

В работе Джейсона Вэя и соавторов эмерджентная способность определяется как способность, которая отсутствует у меньших моделей, но присутствует у более крупных моделей того же семейства.[1] Под «масштабом» обычно понимают сочетание нескольких факторов:

  • числа параметров модели;
  • объёма обучающих данных;
  • вычислительного бюджета обучения;
  • качества и разнообразия корпуса;
  • методов постобучения, включая обучение на инструкциях (англ. instruction tuning) и RLHF.

Важно отличать эмерджентность от обычного плавного роста качества. Если при увеличении модели точность постепенно повышается, это соответствует непрерывному эффекту масштабирования. Если же малые модели показывают почти случайный результат, а затем после некоторого масштаба качество резко возрастает, такой эффект часто называют эмерджентным.

История понятия

Предпосылки к обсуждению эмерджентных способностей возникли в исследованиях законов масштабирования (англ. scaling laws). В работе Kaplan и соавторов было показано, что качество языковых моделей в среднем предсказуемо улучшается при росте числа параметров, данных и вычислений.[1]

Позднее работа Hoffmann и соавторов о модели Chinchilla уточнила, что для эффективного масштабирования важно не только увеличивать размер модели, но и подбирать достаточный объём обучающих токенов.[1]

Важным этапом стала публикация GPT-3, где было показано, что крупная языковая модель способна решать широкий круг задач в режимах zero-shot и few-shot без дообучения на конкретной задаче.[1] После этого исследователи стали систематически изучать, какие способности появляются у моделей при увеличении масштаба.

Связь с масштабированием

Эмерджентные способности обычно рассматриваются в контексте масштабирования моделей. Однако масштаб не является единственным фактором. На результат влияют:

  • архитектура модели;
  • качество и состав обучающих данных;
  • токенизация;
  • длительность обучения;
  • методы постобучения;
  • формат подсказки;
  • используемая метрика оценки.

Например, увеличение числа параметров без соответствующего увеличения обучающего корпуса может быть неэффективным. Исследования вычислительно-оптимального обучения показали, что для заданного бюджета вычислений меньшая модель, обученная на большем числе токенов, может превосходить более крупную, но недообученную модель.[1]

Таким образом, эмерджентность не следует сводить только к числу параметров. Она возникает из взаимодействия масштаба модели, данных, алгоритма обучения и процедуры оценки.

Группы эмерджентных способностей

Обучение в контексте

Обучение в контексте (англ. in-context learning) — способность модели выполнять новую задачу на основе инструкции или нескольких примеров, помещённых непосредственно в запрос, без изменения весов модели. В режиме zero-shot модель получает только описание задачи, а в режиме few-shot — несколько демонстраций входов и правильных ответов.

Эта способность считается возможным проявлением эмерджентности, поскольку у малых моделей она часто выражена слабо, а у крупных моделей может становиться заметным универсальным механизмом адаптации к новой задаче.[1]

Рассуждение и решение задач

К этой группе относят арифметические задачи, логический вывод, многошаговые вопросы и задачи, требующие промежуточных рассуждений. Одним из известных методов является подсказка с цепочкой рассуждений (англ. chain-of-thought prompting), при которой модель генерирует промежуточные шаги перед финальным ответом.[1]

Такие способности называют эмерджентными, поскольку эффективность chain-of-thought-подсказок особенно заметна у крупных моделей, тогда как у малых моделей такой формат может не давать существенного улучшения.

Программирование

Большие языковые модели могут генерировать, дополнять и объяснять программный код. Для оценки таких способностей часто используется HumanEval — набор задач для проверки функциональной корректности программ, предложенный в работе о Codex.[1]

Программирование рассматривается как возможная эмерджентная способность, потому что оно требует сочетания языкового понимания, знания синтаксиса, работы с абстракциями и проверки логической структуры решения. При этом модели могут создавать ошибочный или небезопасный код, поэтому практическое применение требует тестирования и ревью.

Многоязычный перенос

Многоязычный перенос (англ. cross-lingual transfer) означает способность модели использовать знания, полученные на одних языках или доменах, при работе с другими языками или предметными областями. Крупные модели часто демонстрируют улучшение перевода, суммаризации и ответов на вопросы в многоязычной среде.

Эта способность может выглядеть эмерджентной, если качество на некоторых языках или языковых парах резко повышается только у моделей достаточно большого масштаба. Однако её трудно отделить от состава обучающих данных: если язык или задача были широко представлены в корпусе, результат может быть следствием обучения, а не нового обобщения.

Использование инструментов

Современные LLM могут быть встроены в системы, где модель вызывает внешние инструменты: поисковые системы, калькуляторы, интерпретаторы кода, базы данных и API. Такая способность особенно важна для агентных систем, где модель должна планировать действия, выбирать инструмент, интерпретировать результат и продолжать решение задачи.

Использование инструментов не всегда возникает только из предварительного обучения: часто требуется специальная настройка, обучение на инструкциях или проектирование внешней среды. Поэтому его корректнее рассматривать как область, где масштаб модели взаимодействует с инженерными методами построения агентов.

Бенчмарки и оценка

Эмерджентные способности обычно изучаются на бенчмарках, проверяющих широкий набор навыков.

К часто используемым наборам относятся:

  • BIG-Bench — большой набор задач для оценки и экстраполяции возможностей языковых моделей;[1]
  • MMLU — тест многозадачного понимания, включающий вопросы из разных областей знания;[1]
  • GSM8K — набор школьных математических задач, используемый для оценки многошагового рассуждения;[1]
  • HumanEval — набор задач для оценки генерации программного кода.[1]

Методологические трудности оценки включают:

  • загрязнение тестов (англ. benchmark contamination), когда тестовые примеры или их аналоги могли попасть в обучающие данные;
  • чувствительность к формулировке подсказки;
  • зависимость результата от формата ответа;
  • различия между одношаговой и многошаговой оценкой;
  • слабую воспроизводимость при закрытых моделях и неполной информации о данных обучения;
  • сложность сравнения моделей, обученных с разными методами постобучения.

Поэтому результат на бенчмарке нельзя автоматически считать доказательством истинной эмерджентности. Он показывает поведение модели в конкретной процедуре оценки.

Критика понятия эмерджентности

Понятие эмерджентных способностей остаётся дискуссионным. Одна позиция состоит в том, что крупные модели действительно приобретают качественно новые возможности, которые трудно предсказать по поведению малых моделей.[1]

Альтернативная позиция утверждает, что некоторые «скачки» могут быть следствием выбора метрик и порогов оценки. В работе Schaeffer, Miranda и Koyejo показано, что при использовании дискретных или нелинейных метрик постепенное улучшение модели может выглядеть как резкий переход. Авторы называют такие эффекты возможным «миражом» эмерджентности.[1]

Например, если задача оценивается как полностью правильная или неправильная, небольшое улучшение вероятности правильного решения может долго не отражаться в итоговой метрике, а затем проявиться как резкий скачок. Поэтому для анализа эмерджентности важно рассматривать не только итоговую точность, но и более гладкие метрики: вероятность правильного ответа, частичные баллы, калибровку и устойчивость к переформулировкам.

Ограничения и открытые вопросы

Обобщение и запоминание

Остаётся открытым вопрос, в какой степени наблюдаемые способности являются результатом обобщения, а в какой — следствием запоминания похожих примеров из обучающих данных. Эта проблема особенно существенна для популярных бенчмарков, которые могли быть доступны в интернете до обучения модели.

Влияние подсказок

Результаты LLM сильно зависят от подсказки. Изменение порядка примеров, формата ответа или стиля инструкции может заметно повлиять на качество. Это осложняет сравнение моделей и делает оценку эмерджентных способностей менее устойчивой.

Роль постобучения

Многие современные модели проходят instruction tuning, RLHF, фильтрацию данных и дополнительные этапы настройки. Поэтому трудно отделить способности, возникшие за счёт масштаба предварительного обучения, от способностей, появившихся в результате постобучения.

Интерпретируемость

Внутренние механизмы LLM остаются слабо интерпретируемыми. Даже если модель успешно решает задачу, часто неизвестно, использует ли она устойчивый алгоритм, статистическую эвристику или воспроизводит похожий шаблон из данных. Это делает эмерджентные способности важной темой для интерпретируемости и анализа внутренних представлений.

Значение для безопасности ИИ

Эмерджентные способности имеют важное значение для безопасности ИИ. Если новые возможности появляются неожиданно, разработчикам сложнее заранее оценить риски, связанные с автономностью, убеждением, программированием, поиском уязвимостей или использованием инструментов.

Для выравнивания ИИ эта тема важна потому, что поведение модели может изменяться качественно при переходе к большему масштабу. Модель, безопасная в малом варианте, не обязательно сохранит те же свойства после масштабирования. Поэтому необходимы систематические оценки, red teaming, тесты на надёжность и анализ поведения до развёртывания.

В разработке агентов эмерджентные способности также важны: агентные системы объединяют языковую модель с памятью, планированием, внешними инструментами и средой исполнения. Даже если отдельная модель ограничена, её включение в контур действий может усилить практические возможности и риски системы.

Практическое значение

Изучение эмерджентных способностей помогает:

  • прогнозировать возможности будущих моделей;
  • строить более надёжные бенчмарки;
  • оценивать риски масштабирования;
  • разрабатывать методы контроля и выравнивания;
  • понимать ограничения LLM в программировании, науке, образовании и промышленности;
  • отличать реальные улучшения от артефактов оценки.

При этом эмерджентность не следует понимать как магическое или полностью необъяснимое явление. В большинстве случаев речь идёт о сложном взаимодействии масштаба, данных, архитектуры, обучения и метрики.

См. также

Примечания


Литература

  • Brown T. B., Mann B., Ryder N. et al. Language Models are Few-Shot Learners. Advances in Neural Information Processing Systems, 2020.
  • Kaplan J., McCandlish S., Henighan T. et al. Scaling Laws for Neural Language Models. arXiv:2001.08361, 2020.
  • Hoffmann J., Borgeaud S., Mensch A. et al. Training Compute-Optimal Large Language Models. Advances in Neural Information Processing Systems, 2022.
  • Wei J., Tay Y., Bommasani R. et al. Emergent Abilities of Large Language Models. Transactions on Machine Learning Research, 2022.
  • Wei J., Wang X., Schuurmans D. et al. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. Advances in Neural Information Processing Systems, 2022.
  • Srivastava A. et al. Beyond the Imitation Game: Quantifying and Extrapolating the Capabilities of Language Models. Transactions on Machine Learning Research, 2023.
  • Hendrycks D., Burns C., Basart S. et al. Measuring Massive Multitask Language Understanding. ICLR, 2021.
  • Cobbe K., Kosaraju V., Bavarian M. et al. Training Verifiers to Solve Math Word Problems. arXiv:2110.14168, 2021.
  • Chen M., Tworek J., Jun H. et al. Evaluating Large Language Models Trained on Code. arXiv:2107.03374, 2021.
  • Schaeffer R., Miranda B., Koyejo S. Are Emergent Abilities of Large Language Models a Mirage? arXiv:2304.15004, 2023.

Ссылки

Личные инструменты