Большая языковая модель

Материал из MachineLearning.

(Различия между версиями)

Emil Petrov (Обсуждение | вклад)
(Новая статья о больших языковых моделях (LLM), написана с Claude Sonnet 4)
К следующему изменению →

Версия 10:43, 16 июня 2026

Статья написана с использованием LLM Claude Sonnet 4 и проверена участником Emil Petrov Emil Petrov 14:43, 16 июня 2026 (MSD)

Промпт приводится полностью в Обсуждение:Большая языковая модель

Содержание

1 Определение и масштаб
2 Предобучение
- 2.1 Цель и данные
- 2.2 Вычислительные законы масштабирования
3 Тонкая настройка (fine-tuning)
4 Возникающие способности
5 Применения
6 Ограничения и риски
7 Исторические вехи
8 См. также
9 Примечания
10 Литература

Больша́я языкова́я мо́дель (англ. large language model, LLM) — класс нейронных сетей, обученных на огромных корпусах текстов и способных генерировать, анализировать и преобразовывать текст на естественном языке. Современные LLM, как правило, строятся на архитектуре трансформера и содержат от нескольких миллиардов до триллионов параметров. Наиболее известные представители — серии GPT (OpenAI), Gemini (Google DeepMind), Claude (Anthropic) и LLaMA (Meta AI).

Определение и масштаб

Понятие «большая» не имеет точной границы и исторически смещалось: модели, считавшиеся огромными в 2018 году (BERT — 340 млн параметров), сегодня воспринимаются как небольшие. Практически, LLM — это языковая модель, обученная на корпусе объёмом от десятков до триллионов токенов при вычислительном бюджете, делающем обучение недоступным для большинства академических организаций без специализированного оборудования.

Языковая модель формально задаёт вероятностное распределение над последовательностями токенов. Авторегрессионная модель факторизует вероятность последовательности как произведение условных вероятностей:

$P(x_1, x_2, ldots, x_n) = prod_{t=1}^{n} P(x_t mid x_1, ldots, x_{t-1}).$

На каждом шаге $t$ модель предсказывает распределение по словарю, из которого семплируется следующий токен.

Предобучение

Цель и данные

LLM обучаются методом самообучения (self-supervised learning): обучающий сигнал извлекается непосредственно из текстов без ручной разметки. Наиболее распространены две задачи:

Языковое моделирование (causal language modeling, CLM) — предсказание следующего токена по всем предыдущим. Используется в моделях семейства GPT.
Маскированное языковое моделирование (masked language modeling, MLM) — предсказание замаскированных токенов по контексту слева и справа. Используется в BERT и его вариантах.

Корпус данных собирается из Common Crawl (веб-страницы), книг (Books3, Gutenberg), научных статей, кода (GitHub), Википедии и других источников. Для моделей GPT-4, LLaMA, Claude объём обучающих данных составляет от нескольких сотен миллиардов до нескольких триллионов токенов.

Вычислительные законы масштабирования

Исследования Kaplan et al. (2020) и Hoffmann et al. (2022, «Chinchilla») установили, что потери языковой модели убывают как степенная функция от числа параметров $N$ и объёма обучающих данных $D$ :

$L(N, D) approx A cdot N^{-alpha} + B cdot D^{-�eta} + L_infty,$

где $alpha approx �eta approx 0{,}5$ , а $L_infty$ — нижняя граница ошибки, обусловленная шумом данных. Модели Chinchilla (70 млрд параметров, 1{,}4 трлн токенов) показали, что при фиксированном бюджете вычислений оптимально иметь меньшую модель, обученную на бо́льшем объёме данных.

Тонкая настройка (fine-tuning)

Предобученная LLM часто дообучается под конкретные задачи. Наиболее влиятельным методом стало обучение с подкреплением из обратной связи человека (RLHF), включающее:

Дообучение с учителем (SFT) на демонстрациях правильного поведения.
Обучение модели вознаграждения (reward model) на попарных предпочтениях людей.
Оптимизацию политики с помощью алгоритма PPO или аналогов.

Это позволяет выровнять поведение модели с человеческими ценностями и предпочтениями (alignment).

Альтернативные методы тонкой настройки: LoRA (Low-Rank Adaptation), QLoRA, DPO (Direct Preference Optimization), prefix-tuning. Они позволяют дообучать модели с меньшим числом обучаемых параметров и меньшими вычислительными затратами.

Возникающие способности

При увеличении числа параметров LLM демонстрируют возникающие способности (emergent abilities) — возможности, неожиданно появляющиеся при достижении определённого масштаба и практически отсутствующие у меньших моделей. К ним относятся:

Решение многошаговых логических задач через цепочку рассуждений (Chain-of-Thought, CoT).
Обучение по нескольким примерам в контексте (few-shot in-context learning) без обновления весов.
Выполнение инструкций, не встречавшихся при обучении (instruction following).
Простейшие арифметические операции, написание кода, перевод без специализированного обучения.

Природа этих способностей остаётся предметом научной дискуссии: часть исследователей считает их подлинными emergent properties, другие объясняют артефактами метрик оценки.

Применения

LLM нашли применение в широком спектре задач:

Генерация текста — написание статей, кода, рекламных материалов, сценариев.
Вопросно-ответные системы — поиск с семантическим пониманием запроса (retrieval-augmented generation, RAG).
Программирование — автодополнение кода (GitHub Copilot), генерация тестов, объяснение кода.
Научные исследования — обзор литературы, генерация гипотез, анализ данных.
Образование — персонализированные объяснения, адаптивные учебные программы.
Мультимодальные системы — понимание и генерация изображений совместно с текстом (GPT-4V, Gemini, Claude).

Ограничения и риски

Галлюцинации — модели уверенно генерируют фактически неверные утверждения.
Сдвиг обучающего распределения — поведение модели может существенно меняться за пределами данных предобучения.
Предвзятости (bias) — LLM воспроизводят и усиливают предвзятости, присутствующие в обучающих данных.
Безопасность — возможность злоупотреблений (дезинформация, фишинг, синтез вредоносного контента).
Непрозрачность — механизм принятия решений остаётся слабо интерпретируемым (см. interpretability).

Исторические вехи

Год	Модель	Параметры	Организация
2018	BERT-Large	340 млн	Google
2019	GPT-2	1,5 млрд	OpenAI
2020	GPT-3	175 млрд	OpenAI
2022	ChatGPT (GPT-3.5)	~175 млрд	OpenAI
2023	GPT-4	~1 трлн (оценка)	OpenAI
2023	LLaMA 2	70 млрд	Meta AI
2024	Gemini Ultra	неизвестно	Google DeepMind
2024	Claude 3 Opus	неизвестно	Anthropic

См. также

Примечания

Литература

Kaplan J., McCandlish S., Henighan T. et al. Scaling Laws for Neural Language Models // arXiv preprint. — 2020.
Hoffmann J. et al. Training Compute-Optimal Large Language Models // arXiv preprint. — 2022.
Brown T. et al. Language Models are Few-Shot Learners // Advances in Neural Information Processing Systems. — 2020. — Т. 33.
Wei J. et al. Emergent Abilities of Large Language Models // Transactions on Machine Learning Research. — 2022.
Ouyang L. et al. Training language models to follow instructions with human feedback // Advances in Neural Information Processing Systems. — 2022. — Т. 35.

Источник — «http://machinelearning.ru/wiki/index.php?title=%D0%91%D0%BE%D0%BB%D1%8C%D1%88%D0%B0%D1%8F_%D1%8F%D0%B7%D1%8B%D0%BA%D0%BE%D0%B2%D0%B0%D1%8F_%D0%BC%D0%BE%D0%B4%D0%B5%D0%BB%D1%8C»

Категории: Машинное обучение | Нейронные сети | Обработка естественного языка