Большая языковая модель

Материал из MachineLearning.

Перейти к: навигация, поиск
Статья написана с использованием LLM Claude Sonnet 4 и проверена участником Emil Petrov 14:58, 16 июня 2026 (MSD)

Промпт приводится полностью в Обсуждение:Большая языковая модель


Содержание

Больша́я языкова́я мо́дель (англ. large language model, LLM) — класс нейронных сетей, обученных на огромных корпусах текстов и способных генерировать, анализировать и преобразовывать текст на естественном языке. Современные LLM, как правило, строятся на архитектуре трансформера и содержат от нескольких миллиардов до триллионов параметров. Наиболее известные представители — серии GPT (OpenAI), Gemini (Google DeepMind), Claude (Anthropic) и LLaMA (Meta AI).

Определение и масштаб

Языковая модель формально задаёт вероятностное распределение над последовательностями токенов. Авторегрессионная модель факторизует вероятность последовательности как произведение условных вероятностей:

P(x_1, x_2, \ldots, x_n) = \prod_{t=1}^{n} P(x_t \mid x_1, \ldots, x_{t-1}).

На каждом шаге t модель предсказывает распределение по словарю, из которого семплируется следующий токен.

Понятие «большая» не имеет точной границы и исторически смещалось: модели, считавшиеся огромными в 2018 году (BERT — 340 млн параметров), сегодня воспринимаются как небольшие.

Предобучение

Задачи предобучения

LLM обучаются методом самообучения (self-supervised learning): обучающий сигнал извлекается непосредственно из текстов без ручной разметки. Наиболее распространены две задачи:

  • Языковое моделирование (causal language modeling, CLM) — предсказание следующего токена по всем предыдущим. Используется в моделях семейства GPT.
  • Маскированное языковое моделирование (masked language modeling, MLM) — предсказание замаскированных токенов по контексту слева и справа. Используется в BERT и его вариантах.

Корпус данных собирается из Common Crawl (веб-страницы), книг, научных статей, кода (GitHub), Википедии и других источников. Для GPT-4, LLaMA, Claude объём обучающих данных составляет от сотен миллиардов до нескольких триллионов токенов.

Законы масштабирования

Исследования Kaplan et al. (2020) и Hoffmann et al. (2022, «Chinchilla») установили, что потери языковой модели убывают как степенная функция от числа параметров N и объёма обучающих данных D:

L(N, D) \approx A \cdot N^{-\alpha} + B \cdot D^{-\beta} + L_\infty,

где \alpha \approx \beta \approx 0{,}5, а L_\infty — нижняя граница ошибки, обусловленная шумом данных. Модели Chinchilla показали, что при фиксированном бюджете вычислений оптимально иметь меньшую модель, обученную на бо́льшем объёме данных.

Тонкая настройка (fine-tuning)

Предобученная LLM часто дообучается под конкретные задачи. Наиболее влиятельным методом стало обучение с подкреплением из обратной связи человека (RLHF), включающее:

  1. Дообучение с учителем (SFT) на демонстрациях правильного поведения.
  2. Обучение модели вознаграждения (reward model) на попарных предпочтениях людей.
  3. Оптимизацию политики с помощью алгоритма PPO или аналогов.

Альтернативные методы: LoRA (Low-Rank Adaptation), QLoRA, DPO (Direct Preference Optimization), prefix-tuning — позволяют дообучать модели с меньшим числом параметров.

Возникающие способности

При увеличении числа параметров LLM демонстрируют возникающие способности (emergent abilities) — возможности, неожиданно появляющиеся при достижении определённого масштаба:

  • Решение многошаговых логических задач через цепочку рассуждений (Chain-of-Thought, CoT).
  • Обучение по нескольким примерам в контексте (few-shot in-context learning) без обновления весов.
  • Выполнение инструкций, не встречавшихся при обучении (instruction following).

Применения

LLM нашли применение в широком спектре задач:

  • Генерация текста — написание статей, кода, рекламных материалов, сценариев.
  • Вопросно-ответные системы — поиск с семантическим пониманием запроса (retrieval-augmented generation, RAG).
  • Программирование — автодополнение кода (GitHub Copilot), генерация тестов, объяснение кода.
  • Мультимодальные системы — понимание и генерация изображений совместно с текстом.

Ограничения и риски

  • Галлюцинации — модели уверенно генерируют фактически неверные утверждения.
  • Предвзятости (bias) — LLM воспроизводят и усиливают предвзятости обучающих данных.
  • Безопасность — возможность злоупотреблений: дезинформация, фишинг, вредоносный контент.
  • Непрозрачность — механизм принятия решений остаётся слабо интерпретируемым.

Исторические вехи

Год Модель Параметры Организация
2018 BERT-Large 340 млн Google
2019 GPT-2 1,5 млрд OpenAI
2020 GPT-3 175 млрд OpenAI
2022 ChatGPT (GPT-3.5) ~175 млрд OpenAI
2023 GPT-4 ~1 трлн (оценка) OpenAI
2023 LLaMA 2 70 млрд Meta AI
2024 Claude 3 Opus неизвестно Anthropic

См. также

Примечания

Литература