Контекстное обучение

Материал из MachineLearning.

Версия от 15:59, 25 июня 2026; Renal Gazizullin (Обсуждение | вклад)
(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)
Перейти к: навигация, поиск
Статья написана с использованием LLM Gemini 3.1 Pro и проверена участником Renal Gazizullin 19:00, 25 июня 2026 (MSD)


Контекстное обучение (In-Context Learning / ICL) — парадигма работы больших языковых моделей (LLM), при которой адаптация к новой задаче происходит исключительно за счет модификации входного промпта (контекста) без изменения весовых коэффициентов нейросети. Феномен ICL является эмерджентным свойством, проявляющимся при масштабировании емкости моделей и объемов обучающих выборок.

Содержание

Формальная математическая постановка

Пусть задана предобученная языковая модель с неизменяемыми параметрами \theta. В рамках авторегрессионного моделирования текста задача контекстного обучения формулируется как задача условного предсказания целевого токена y_t на основе префикса, содержащего k демонстрационных пар «вход-выход» (примеров) и нового целевого запроса x_t:

P(y_t \mid x_1, y_1, x_2, y_2, \dots, x_k, y_k, x_t; \theta)

Здесь подпоследовательность D_k = (x_1, y_1, \dots, x_k, y_k) представляет собой обучающий контекст (обучающую выборку задачи), а распределение вероятностей вычисляется без применения градиентного спуска или иных методов явной оптимизации функционала ошибки на этапе инференса.

Различие между контекстным обучением и классическим дообучением

Специфика ICL наиболее отчетливо проявляется в сравнении с классическим дообучением (Fine-tuning) и настройкой промптов (Prompt Tuning):

  • Вычислительный граф и обновление параметров: При классическом fine-tuning граф вычислений включает как прямой, так и обратный проход (backpropagation). Параметры модели модифицируются: \theta_{new} = \theta_{old} - \eta \nabla_\theta \mathcal{L}. При ICL граф вычислений ограничен исключительно прямым проходом (forward pass). Перенос знаний и адаптация к задаче реализуются динамически через изменение латентных представлений (активаций) внутри механизма внимания.
  • Ресурсная емкость: Fine-tuning требует существенных вычислительных затрат на хранение градиентов и состояний оптимизатора, но минимизирует длину контекста при инференсе. ICL не требует затрат на обучение, однако накладывает вычислительную нагрузку порядка \mathcal{O}(N^2) (для стандартной архитектуры Transformer) из-за квадратичной зависимости стоимости вычисления внимания от длины контекста, увеличивающейся за счет демонстрационных примеров.

Теоретические механизмы (Физика процесса)

Механистическое объяснение природы ICL в современных работах ведется по двум комплементарным направлениям: механистическая интерпретируемость и оптимизационный анализ.

Индукционные головки (Induction Heads)

С точки зрения анализа микроархитектуры трансформеров, ключевым биологическим субстратом ICL выступают так называемые индукционные головки (induction heads) [1]. Это специализированные паттерны внимания в глубоких слоях сети, реализующие двухэтапный алгоритм копирования префиксов:

  1. Головка ищет в контексте токены, аналогичные текущему токену A.
  2. Она направляет внимание на токен B, следовавший непосредственно за A в прошлых упоминаниях, и увеличивает вероятность его генерации в текущей позиции.

Эмпирически показано, что появление индукционных головок во время предобучения строго совпадает по времени с резким скачком способности модели к контекстному обучению (фазовый переход).

Оптимизационный взгляд: имплицитный градиентный спуск

Альтернативный теоретический подход постулирует, что механизм сквозного внимания (Self-Attention) во время прямого прохода математически эквивалентен выполнению шагов линейного градиентного спуска над имплицитными весами, закодированными в активациях [1][1]. Если представить слой внимания без функции активации Softmax (Linear Attention), то вычисление проекций можно переписать как операцию обновления мета-параметров. Пусть матрицы проекций W_K, W_V кодируют демонстрационные примеры. Тогда вычисление внимания для нового запроса эквивалентно применению оператора, минимизирующего среднеквадратичную ошибку (MSE) на контексте:

\Delta W = \sum_{i=1}^k (W_V x_i - W_K x_i) x_i^T

Таким образом, трансформер выступает в роли мета-оптимизатора, где активации слоев переносят «мета-градиенты», адаптирующие имплицитную модель под текущую задачу без физического изменения глобальных весов \theta.

Эмпирические свойства и аномалии

Несмотря на высокую эффективность, ICL характеризуется рядом контринтуитивных аномалий, указывающих на фундаментальные отличия от классического обучения по выборке:

  • Феномен «Rethinking the Role of Demonstrations»: В классической работе Мин и соавторов было обнаружено, что замена истинных меток y_i в демонстрационном контексте на случайные или инвертированные слабо влияет на итоговое качество предсказания модели на многих задачах [1]. Основной вклад демонстраций заключается в задании формата ввода, демонстрации распределения входных признаков x и очерчивании пространства допустимых ответов, а не в фиксации точного семантического отображения X \to Y.
  • Чувствительность к порядку примеров (Recency Bias): Перестановка демонстрационных пар местами способна изменить метрику качества (например, accuracy) от уровня случайного угадывания до уровня State-of-the-Art [1]. Модели склонны отдавать приоритет примерам, расположенным ближе к целевому запросу x_t.

Литература