Большая языковая модель

Материал из MachineLearning.

Статья написана с использованием LLM Claude Sonnet 4 и проверена участником Emil Petrov 19:45, 14 июля 2026 (MSD)

Промпт приводится полностью в Обсуждение:Большая языковая модель

Содержание

1 Архитектура трансформера и механизм внимания
2 История
- 2.1 Появление термина LLM
- 2.2 Основные вехи развития
3 Современные мировые LLM
4 Ограничения и риски
5 См. также
6 Примечания
7 Литература

Больша́я языкова́я мо́дель (англ. large language model, LLM) — класс моделей машинного обучения на основе глубоких нейронных сетей, обученных на чрезвычайно больших корпусах текстов и способных понимать, генерировать и преобразовывать текст на естественном языке. Современные LLM, как правило, строятся на архитектуре трансформера и содержат от сотен миллионов до нескольких триллионов параметров. Благодаря самообучению на разнородных данных они приобретают способность решать широкий круг задач без отдельного дообучения под каждую из них: машинный перевод, ответы на вопросы, суммаризация, написание программного кода, ведение диалога и многое другое.

LLM лежат в основе таких систем, как GPT, Claude, Gemini, Llama, DeepSeek и Qwen. Они рассматриваются как ключевой компонент современного искусственного интеллекта и движущая сила генеративных технологий. Для новичка полезно думать о LLM как о «очень большой статистической машине следующего слова», которая, благодаря масштабу данных и параметров, неожиданно научилась имитировать рассуждение, стиль и знание фактов; для практика важны уже детали: decoder-only vs encoder–decoder, длина контекста, стоимость токена, наличие tool-use и RAG, открытость весов.

Архитектура трансформера и механизм внимания

Основой подавляющего большинства больших языковых моделей служит архитектура трансформера, предложенная в работе «Attention Is All You Need» (Vaswani et al., 2017)^[1]. Трансформер отказался от рекуррентных и свёрточных слоёв, использовавшихся ранее для обработки последовательностей, и полностью построен на механизме внимания (attention). Это позволило эффективнее обрабатывать длинные тексты и распараллеливать вычисления — критично при обучении на гигантских корпусах.

Само-внимание (self-attention)

Центральный элемент трансформера — многоголовое само-внимание (multi-head self-attention). Его идею удобно пояснить аналогией с поиском в библиотеке: у вас есть запрос (query), у каждой книги — ключ (key, краткое описание) и содержание (value, полный текст). Внимание сопоставляет запрос с ключами всех книг, оценивает релевантность и на её основе взвешенно суммирует содержимое.

Формально для последовательности входных векторов (токенов) строятся матрицы запросов $Q$ , ключей $K$ и значений $V$ . Выход внимания:

$\text{Attention}(Q, K, V) = \text{softmax}\!\left(\frac{QK^\top}{\sqrt{d_k}}\right) V,$

где $d_k$ — размерность ключей. Softmax по строке превращает скалярные произведения в вероятностные веса; деление на $\sqrt{d_k}$ предотвращает слишком резкие градиенты при больших размерностях.

Иными словами, каждое слово в предложении «смотрит» на все остальные и решает, насколько они важны для его понимания в данном контексте. Так модель улавливает дальние зависимости — например, связь местоимения с именем, упомянутым несколькими предложениями ранее. Сложность наивного внимания квадратична по длине последовательности: $O(n^2 d)$ , что объясняет, почему длина контекста — не только «удобство пользователя», но и жёсткое инженерное ограничение.

Многоголовое внимание и позиционное кодирование

Вместо одного внимания используют несколько «голов» (heads): каждая работает в своём подпространстве и следит за своим типом отношений (синтаксис, семантика, кореференция). Выходы голов объединяют и линейно преобразуют:

$\text{MultiHead}(Q,K,V)=\text{Concat}(\text{head}_1,\ldots,\text{head}_h)W^O.$

Сам по себе механизм внимания перестановочно инвариантен: он не знает порядка слов. Поэтому к встраиваниям токенов добавляют позиционные кодировки (positional encodings). В оригинальной работе — синусоидальные функции; позже — обучаемые позиционные представления; в современных LLM часто вращающиеся позиционные кодировки (RoPE), которые лучше обобщаются на длинные контексты.

Энкодер, декодер и современные варианты

Классический трансформер состоит из энкодера (сжимает вход в контекстное представление) и декодера (порождает выход). В больших языковых моделях чаще применяют только декодер (decoder-only), как в серии GPT: модель предсказывает следующий токен по предыдущим, используя каузальное (маскированное) само-внимание, запрещающее «заглядывать вперёд». Такой режим естественно подходит для генерации и легче масштабируется.

Авторегрессионная модель факторизует вероятность последовательности:

$P(x_1,\ldots,x_n)=\prod_{t=1}^{n} P(x_t\mid x_1,\ldots,x_{t-1}).$

Обучение обычно минимизирует кросс-энтропию (отрицательное логарифмическое правдоподобие) следующего токена. Encoder–decoder-архитектуры (T5, классический перевод) сильнее в задачах «вход → выход», где вход и ответ структурно различны; decoder-only выигрывает универсальностью и масштабируемостью при генерации.

История

Появление термина LLM

Точное авторство термина «Large Language Model» установить сложно: описательно он применялся по мере роста нейросетевых языковых моделей. В академической литературе словосочетание широко закрепилось после выхода GPT-2 (Radford et al., 2019) и особенно GPT-3 (Brown et al., 2020) с 175 млрд параметров^[1]. К 2020–2021 году LLM стало общепринятым названием для трансформерных моделей, предобученных на огромных текстовых корпусах и насчитывающих миллиарды параметров. Понятие «большая» исторически смещалось: BERT-Large (340 млн параметров, 2018) когда-то казался огромным.

Основные вехи развития

Ранние языковые модели (2013–2018). Практический старт дали статические нейросетевые встраивания Word2Vec (Mikolov et al., 2013) и GloVe (Pennington et al., 2014). Затем появились контекстные модели: ELMo (Peters et al., 2018) и BERT (Devlin et al., 2019) — предобучение на больших корпусах и тонкая настройка (fine-tuning) под конкретные задачи. BERT уже имел сотни миллионов параметров и на момент создания считался «большим».

GPT, T5 и эра масштабирования (2018–2020). OpenAI выпустила GPT-1 (2018) и GPT-2 (2019) — decoder-only трансформеры, обученные на предсказании следующего слова. GPT-2 с 1,5 млрд параметров показал, что модели могут генерировать связные тексты, иногда почти неотличимые от человеческих. T5 (Raffel et al., 2020) унифицировал задачи в формате «текст → текст». GPT-3 продемонстрировал феномен in-context learning — способность решать новые задачи по нескольким примерам в промпте без обновления весов — и фактически дал старт индустрии LLM.

Законы масштабирования. Kaplan et al. (2020) показали степенную зависимость потерь от размера модели и данных^[1]. Hoffmann et al. (2022, Chinchilla) уточнили: при фиксированном compute-бюджете оптимальна не «максимально огромная» модель, а баланс числа параметров $N$ и объёма данных $D$ ^[1]:

$L(N,D)\approx A N^{-\alpha}+B D^{-\beta}+L_\infty.$

Практический вывод: «просто добавить параметров» без достаточного числа токенов обучения — пустая трата compute.

InstructGPT и выравнивание (2022). Метод RLHF позволил настраивать языковые модели под инструкции и предпочтения человека. InstructGPT (Ouyang et al., 2022), построенный на GPT-3, показал: относительно небольшая выровненная модель даёт более полезные и безопасные ответы, чем намного более крупная «сырая» GPT-3. Этот подход лёг в основу ChatGPT и последующих диалоговых систем^[1].

LoRA и эффективная адаптация (2021–2022). С ростом моделей полное дообучение стало дорогостоящим. Метод LoRA (Hu et al., 2021) адаптирует LLM, добавляя лишь небольшое число обучаемых параметров в виде низкоранговых матриц к замороженным весам, что радикально снизило вычислительные затраты и открыло массовый community-driven fine-tuning^[1].

Рассуждения и цепочка мыслей (2022–2025). Приём chain-of-thought (Wei et al., 2022) показал: LLM заметно лучше решают сложные задачи, если им дать возможность генерировать промежуточные шаги рассуждения^[1]. Эта линия усилилась в GPT-4, Claude 3/4, Gemini. Следующим шагом стали модели, специально обученные «думать дольше» на этапе вывода — OpenAI o-серия (с 2024) и DeepSeek-R1 (2025): больше compute на инференсе для проверки и корректировки собственных цепочек мыслей.

Смесь экспертов (MoE, 2023–2025). Архитектура смеси экспертов (Mixture of Experts) давно изучалась (Shazeer et al., 2017), но массовое внедрение в открытые LLM произошло с Mixtral 8×7B (Mistral AI, 2023) и далее DeepSeek-V2/V3, Qwen-MoE. В MoE модель содержит множество «экспертов» — параллельных feed-forward подсетей; для каждого токена активируется лишь часть из них. Это даёт высокую ёмкость при умеренных затратах на инференс.

Retrieval-Augmented Generation (RAG, 2020). RAG (Lewis et al., 2020) объединяет генеративную модель с модулем поиска по внешней базе знаний: во время генерации подбираются релевантные документы, на которые модель опирается. Это позволяет давать актуальные фактологические ответы без переобучения и снижает галлюцинации; RAG стал основой корпоративных QA-систем и чат-ботов с приватными данными^[1].

Внешняя и дифференцируемая память. Отдельная линия исследований дополняет параметрическую «память в весах» внешним или дифференцируемым хранилищем фактов (в духе Neural Turing Machine, Memory Networks и более поздних memory-модулей). Цель — точнее извлекать знания, уменьшать галлюцинации и контролировать, что именно модель «помнит», не впечатывая все факты в параметры. Направление пока фрагментировано: промышленный стандарт ближе к RAG и tool-use, чем к единой «универсальной памяти».

Диффузионные языковые модели (2024–2025). Классические LLM генерируют текст авторегрессивно — токен за токеном. Альтернатива — диффузионные языковые модели (Large Language Diffusion Models): порождение начинается с зашумлённой последовательности и итеративно «очищается» денойзинг-сетью (например, LLaDA). Это даёт естественный параллелизм и иную управляемость генерации, открывая отдельную ветвь развития рядом с авторегрессией.

Современные мировые LLM

По состоянию на середину 2026 года рынок больших языковых моделей представлен несколькими ведущими семействами, различающимися по архитектуре, доступности весов, мультимодальности и специализации.

GPT-4o и o-серия (OpenAI)

Флагманская линейка OpenAI: GPT-4o — мультимодальная модель (текст, изображение, аудио) с низкой задержкой и развитой экосистемой (ChatGPT, API, плагины, tool-use). o-серия специализируется на рассуждениях: модель тратит заметный бюджет вычислений на этапе вывода, чтобы строить и проверять цепочки мыслей. Сильные стороны — универсальность, экосистема, интеграция с инструментами и кодом. Ограничения — проприетарность, стоимость доступа к максимальным версиям, закрытость деталей обучения.

Claude 4 (Anthropic)

Семейство моделей с упором на безопасность и «честность» (Constitutional AI). Claude 4 предлагает очень длинный контекст (сотни тысяч токенов), высокую точность в аналитике и программировании, особенно на длинных документах. Конкурентное преимущество — надёжность, относительно низкая склонность к вредному контенту и аккуратная работа с большими объёмами текста. Модели проприетарны, доступны через API и веб-интерфейс.

Gemini (Google DeepMind)

Мультимодальные модели, тесно интегрированные с поиском Google и облачной инфраструктурой. Gemini отличается очень большим контекстным окном (порядка миллиона и более токенов в старших версиях), нативной обработкой видео и аудио, сильными математическими и научными рассуждениями. Преимущество — доступ к свежей информации через поисковый индекс, аппаратная база TPU, широкий набор сервисов Google. Модель проприетарна.

Llama 4 (Meta)

Открытое (open-weight) семейство моделей Meta, продолжающее линию Llama 2 и 3. Llama 4 доступна в широком диапазоне размеров, поддерживает мультимодальность и многоязычие. Главное преимущество — открытость: исследователи и компании могут загружать, дообучать и развёртывать модель на своём оборудовании. Качество лучших закрытых систем по ряду бенчмарков всё ещё выше, но отставание быстро сокращается, а экосистема производных моделей огромна.

DeepSeek-V3 и DeepSeek-R1 (DeepSeek)

Китайские модели с выдающейся эффективностью. DeepSeek-V3 — MoE-архитектура, обученная с использованием multi-token prediction и относительно экономичным бюджетом; DeepSeek-R1 специализируется на рассуждениях и конкурирует с o-серией при меньшей стоимости инференса. Открытые веса и подробные технические отчёты делают их привлекательными для академических исследований и коммерческого внедрения с контролируемым бюджетом^[1].

Qwen3 (Alibaba)

Серия открытых мультимодальных моделей, охватывающая текст, изображения, аудио и видео. Qwen3 отличается широкой поддержкой языков (особенно азиатских), хорошей производительностью в генерации кода и визуальном понимании. Модели доступны в широком размерном ряде (включая MoE-варианты), что позволяет развёртывать их и на ограниченных ресурсах. Конкурентное преимущество — открытость, мультимодальность и развитая экосистема инструментов.

Сравнительная таблица

Сравнение ведущих LLM (ориентировочно, середина 2026)
Модель	Организация	Открытость	Мультимодальность	Контекст (макс.)	Сильные стороны
GPT-4o / o-серия	OpenAI	Проприетарная	Текст, изображение, аудио	~128k токенов	Экосистема, инструменты, универсальность, reasoning
Claude 4	Anthropic	Проприетарная	Текст, изображение	~200–500k токенов	Безопасность, длинные документы, код и анализ
Gemini	Google DeepMind	Проприетарная	Текст, изображение, аудио, видео	~1–2M токенов	Поиск, научные задачи, очень длинный контекст
Llama 4	Meta	Открытые веса	Текст, изображение	~128k–1M (вариативно)	Локальный деплой, дообучение, сообщество
DeepSeek-V3 / R1	DeepSeek	Открытые веса	Текст	~128k токенов	Эффективность MoE, сильное рассуждение, низкая стоимость
Qwen3	Alibaba	Открытые веса	Текст, изображение, аудио, видео	до ~1M токенов	Мультиязычность, размерный ряд, мультимодальность

Практический вывод. Для новичка: закрытые API удобны «из коробки»; открытые веса нужны, если важны контроль данных, дообучение и стоимость на своём железе. Для профессионала: выбирать стоит не по маркетинговому названию, а по связке «задача → длина контекста → latency/cost → RAG/tool-use → приватность».

Ограничения и риски

Несмотря на впечатляющие результаты, LLM сохраняют принципиальные ограничения.

Галлюцинации — уверенные, но ложные утверждения. Модель оптимизирует правдоподобие следующего токена, а не истинность факта. Частично лечатся RAG, верификацией, tool-use и явным отказом «выдумывать».
Предвзятости данных — модель воспроизводит и усиливает статистические искажения обучающего корпуса (пол, раса, язык, домен).
Злоупотребления — генерация дезинформации, фишинга, вредоносного кода; jailbreak-атаки на фильтры безопасности.
Непрозрачность — внутренние решения плохо интерпретируемы; карты внимания ≠ объяснение для пользователя.
Хрупкость к формулировке — качество ответа сильно зависит от промпта; небольшая перефразировка может резко изменить результат.
Стоимость и экология — обучение и инференс крупных моделей дороги по compute и энергии; MoE и квантизация снижают, но не снимают проблему.
Устаревание знаний — параметрическая память «заморожена» на дату обучения; без поиска и инструментов модель не знает свежих событий.

Качество ответа на практике часто определяется не только «сырой» мощностью модели, но и промпт-инжинирингом: ясная роль, задача, формат вывода, примеры и ограничители нередко важнее перехода на соседнюю по рейтингу модель. Для сложных задач полезны цепочки рассуждений, разбиение на подзадачи и внешняя проверка фактов.

См. также

Примечания

Литература

Vaswani A., Shazeer N., Parmar N., Uszkoreit J., Jones L., Gomez A. N., Kaiser Ł., Polosukhin I. Attention Is All You Need // Advances in Neural Information Processing Systems. — 2017. — Т. 30.
Mikolov T., Chen K., Corrado G., Dean J. Efficient Estimation of Word Representations in Vector Space // arXiv preprint. — 2013.
Devlin J., Chang M.-W., Lee K., Toutanova K. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding // Proceedings of NAACL-HLT. — 2019.
Radford A., Wu J., Child R., Luan D., Amodei D., Sutskever I. Language Models are Unsupervised Multitask Learners // OpenAI Technical Report. — 2019.
Brown T. B., Mann B., Ryder N. и др. Language Models are Few-Shot Learners // Advances in Neural Information Processing Systems. — 2020. — Т. 33.
Kaplan J., McCandlish S., Henighan T. и др. Scaling Laws for Neural Language Models // arXiv preprint. — 2020.
Lewis P., Perez E., Piktus A. и др. Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks // Advances in Neural Information Processing Systems. — 2020. — Т. 33.
Raffel C., Shazeer N., Roberts A. и др. Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer // Journal of Machine Learning Research. — 2020. — Т. 21.
Hu E. J., Shen Y., Wallis P. и др. LoRA: Low-Rank Adaptation of Large Language Models // ICLR. — 2022.
Ouyang L., Wu J., Jiang X. и др. Training language models to follow instructions with human feedback // Advances in Neural Information Processing Systems. — 2022. — Т. 35.
Hoffmann J., Borgeaud S., Mensch A. и др. Training Compute-Optimal Large Language Models // arXiv preprint. — 2022.
Wei J., Wang X., Schuurmans D. и др. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models // Advances in Neural Information Processing Systems. — 2022.
Shazeer N., Mirhoseini A., Maziarz K. и др. Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer // ICLR. — 2017.
DeepSeek-AI DeepSeek-V3 Technical Report // arXiv preprint. — 2024.

Источник — «http://machinelearning.ru/wiki/index.php?title=%D0%91%D0%BE%D0%BB%D1%8C%D1%88%D0%B0%D1%8F_%D1%8F%D0%B7%D1%8B%D0%BA%D0%BE%D0%B2%D0%B0%D1%8F_%D0%BC%D0%BE%D0%B4%D0%B5%D0%BB%D1%8C»

Категории: Машинное обучение | Нейронные сети | Обработка естественного языка | Глубокое обучение