Участник:Vokov/LLM

Материал из MachineLearning.

Перейти к: навигация, поиск
Статья написана с использованием LLM DeepSeek-V4 Preview и проверена участником К.В.Воронцов 10:49, 29 июня 2026 (MSD)


Содержание

Большие языковые модели (англ. large language models, LLM) — класс моделей машинного обучения, основанных на глубоких нейронных сетях и обученных на чрезвычайно больших объёмах текстовых данных с целью понимать, генерировать и обрабатывать естественный язык. Современные LLM, как правило, используют архитектуру трансформера и содержат от сотен миллионов до нескольких триллионов параметров. Благодаря самообучению на разнородных текстах они приобретают способность к выполнению широкого круга задач без специального дообучения: машинный перевод, ответы на вопросы, суммаризация, написание программного кода, ведение диалога и многое другое.

LLM лежат в основе таких известных систем, как GPT-4, Claude, Gemini, Llama, DeepSeek и Qwen. Они рассматриваются как ключевой компонент современного искусственного интеллекта и движущая сила генеративных технологий.

Архитектура трансформера и механизм внимания

Основой подавляющего большинства больших языковых моделей служит архитектура трансформера, предложенная в работе «Attention Is All You Need» (Vaswani et al., 2017)[1]. Трансформер отказался от рекуррентных и свёрточных слоёв, использовавшихся ранее для обработки последовательностей, и полностью построен на механизме внимания (attention). Это позволило значительно эффективнее обрабатывать длинные тексты и распараллеливать вычисления, что критически важно при обучении на гигантских массивах данных.

Само-внимание (self-attention)

Центральный элемент трансформера — многоголовое само-внимание (multi-head self-attention). Его идею можно пояснить через аналогию с поиском информации в библиотеке: у вас есть запрос (query), для каждой книги есть ключ (key) — её описание, и содержание (value) — полный текст. Внимание сопоставляет запрос с ключами всех книг, вычисляет релевантность и на её основе взвешенно суммирует содержимое книг.

Формально, для последовательности входных векторов (представляющих слова или токены) вычисляются три матрицы: запросов Q, ключей K и значений V. Выход внимания определяется как \text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V, где d_k — размерность ключей, а softmax берётся по строке и превращает скалярные произведения в вероятностное распределение весов. Деление на \sqrt{d_k} предотвращает слишком резкие градиенты.

Иными словами, каждое слово в предложении «смотрит» на все остальные и решает, насколько они важны для его понимания в данном контексте. Так модель улавливает зависимости между отдалёнными частями текста — например, связь местоимения с именем, упомянутым несколькими предложениями ранее.

Многоголовое внимание и позиционное кодирование

Вместо одного внимания используется несколько «голов» (heads), каждая из которых работает в своём подпространстве. Это позволяет модели одновременно следить за разными типами отношений (синтаксис, семантика, ссылки). Выходы всех голов объединяются и линейно преобразуются.

Поскольку механизм внимания сам по себе не учитывает порядок слов (он симметричен относительно перестановки входов), в трансформере используются позиционные кодировки (positional encodings) — векторы, добавляемые к входным представлениям токенов и несущие информацию об их положении в последовательности. В оригинальной работе применялись синусоидальные функции; позже стали популярны обучаемые позиционные представления, а в современных LLM — вращающиеся позиционные кодировки (RoPE), которые лучше обобщаются на длинные контексты.

Энкодер, декодер и современные варианты

Полная архитектура трансформера состоит из энкодера (кодировщика), сжимающего входную последовательность в контекстное представление, и декодера (раскодировщика), генерирующего выходную последовательность. Однако в больших языковых моделях чаще применяется только декодер (decoder-only), как в серии GPT: модель предсказывает следующий токен на основе предыдущих, используя каузальное (маскированное) само-внимание, которое запрещает «заглядывать вперёд». Такой подход естественно подходит для генерации текста и легче масштабируется.

История развития больших языковых моделей

Появление термина LLM

Точное авторство термина «Large Language Model» установить сложно. Описательно он применялся по мере роста размеров нейросетевых языковых моделей. В академической литературе словосочетание стало широко употребляться после выхода GPT-2 (Radford et al., 2019) и особенно GPT-3 (Brown et al., 2020), чьи 175 миллиардов параметров поразили сообщество. К 2020–2021 году обозначение LLM закрепилось как общепринятое название для моделей на основе трансформеров, предобученных на огромных текстовых корпусах и насчитывающих миллиарды параметров.

Основные вехи развития

Ранние языковые модели (2013–2018). Первыми нейросетевыми языковыми моделями, получившими практическое значение, стали Word2Vec (Mikolov et al., 2013) и GloVe (Pennington et al., 2014), изучавшие статические векторные представления слов. Затем появились контекстные модели: ELMo (Peters et al., 2018) и BERT (Devlin et al., 2019), которые использовали предобучение на больших корпусах и тонкую настройку (fine-tuning) для конкретных задач. BERT уже имел 340 миллионов параметров и на момент создания считался «большим».

GPT, T5 и эра масштабирования (2018–2020). OpenAI выпустила GPT-1 (2018) и GPT-2 (2019) — decoder-only трансформеры, обученные на задаче предсказания следующего слова. GPT-2 с 1,5 млрд параметров показал, что модели могут генерировать связные тексты, иногда почти неотличимые от человеческих. T5 (Raffel et al., 2020) представил унифицированный текстово-текстовый подход. GPT-3 (2020) с 175 млрд параметров продемонстрировал феномен in-context learning — способность решать новые задачи по нескольким примерам без дообучения, и фактически дал старт индустрии LLM.

InstructGPT и выравнивание (2022). Исследователи OpenAI предложили метод RLHF для точной настройки языковых моделей под инструкции и предпочтения человека. InstructGPT (Ouyang et al., 2022), построенный на основе GPT-3, показал, что относительно небольшая модель, выровненная с помощью обратной связи от людей, даёт более полезные и безопасные ответы, чем намного более крупная сырая GPT-3. Этот подход лёг в основу ChatGPT и последовавших систем[2].

LoRA и эффективная адаптация (2021). С ростом моделей полное дообучение стало дорогостоящим. Метод LoRA (Hu et al., 2021) позволил адаптировать LLM, добавляя лишь небольшое число обучаемых параметров в виде низкоранговых матриц к существующим весам, что радикально снизило вычислительные затраты и открыло дорогу массовому применению community-driven fine-tuning[3].

Рассуждения (reasoning) и цепочка мыслей (2022–2025). Приём «chain-of-thought» (Wei et al., 2022) показал, что LLM значительно улучшают решение сложных задач, если им дать возможность генерировать промежуточные шаги. Эта способность была усилена в GPT-4 (2023), Claude 3 (2024), Gemini (2024). Следующим шагом стали модели, специально обученные рассуждать «внутренне» — OpenAI o1 (2024) и DeepSeek-R1 (2025), которые используют большие бюджеты вычислений на этапе вывода для проверки и корректировки собственных цепочек мыслей, достигая результатов, сопоставимых с экспертными.

Смесь экспертов (MoE, 2023–2024). Архитектура смеси экспертов (Mixture of Experts) давно изучалась (Shazeer et al., 2017), но её массовое внедрение в открытые LLM произошло с выходом Mixtral 8x7B (Mistral AI, 2023). В MoE модель содержит множество «экспертов» — параллельных feed-forward подсетей, и для каждого токена активируется лишь часть из них. Это даёт высокую ёмкость при умеренных вычислительных затратах на инференс. По такому принципу построены GPT-4, Gemini, Qwen2.5-MoE и DeepSeek-V2/V3.

Retrieval-Augmented Generation (RAG, 2020). RAG (Lewis et al., 2020) объединяет генеративные модели с модулем поиска по внешней базе знаний: модель во время генерации подбирает релевантные документы и опирается на них, что позволяет давать актуальные фактологические ответы без переобучения и уменьшает галлюцинации. RAG стал популярным подходом для построения корпоративных вопросно-ответных систем и чат-ботов, работающих с приватными данными[4].

Engram и дифференцируемая память (2023–2024). Модель Engram (DeepMind, 2023) представляет собой масштабируемую дифференцируемую память, которая может подключаться к LLM для точного запоминания и извлечения фактов без их «впечатывания» в веса сети. Это направление продолжает линию Neural Turing Machine и Memory Networks, и нацелено на устранение галлюцинаций и повышение контролируемости знаний. Хотя Engram не стал массовым стандартом, он иллюстрирует тренд на гибридизацию параметрической памяти с внешним хранилищем[5].

Диффузионные языковые модели (LLDM, 2024–2025). Традиционно LLM генерируют текст авторегрессивно — токен за токеном слева направо. Альтернативой выступают диффузионные языковые модели (Large Language Diffusion Models), вдохновлённые успехом диффузии в изображениях. Модель LLaDA (Large Language Diffusion with mAsked Diffusion, 2025) показала, что текст можно порождать, начиная с полностью зашумлённой последовательности и итеративно «очищая» её с помощью денойзинг-сети. Это даёт естественный параллелизм, потенциально более высокое качество и управляемость генерации, открывая новую ветвь развития LLM[6].

Современные мировые LLM: сравнение и конкурентные преимущества

По состоянию на 2026 год рынок больших языковых моделей представлен несколькими ведущими семействами, различающимися по архитектуре, доступности, мультимодальности и специализации. Ниже приведён обзор ключевых игроков.

GPT-4o (OpenAI)

Флагманская мультимодальная модель, принимающая на вход текст, изображения и аудио. Отличается низкой задержкой ответа, развитой экосистемой (ChatGPT, API, Plugins), интеграцией с инструментами и кодом. Сильные стороны: генерация и понимание естественного языка, широкая база пользователей, постоянные обновления. Ограничения: проприетарность, стоимость доступа к максимальным версиям, умеренные способности к очень длинному контексту по сравнению с конкурентами.

Claude 3.5 Sonnet и Claude 4 (Anthropic)

Семейство моделей, спроектированное с упором на безопасность и честность (Constitutional AI). Claude 3.5 Sonnet и новейший Claude 4 предлагают контекст до 200–500 тысяч токенов, высокую точность в аналитике и программировании, особенно в задачах на длинных документах. Конкурентное преимущество — надёжность, низкая склонность к галлюцинациям и вредному контенту, глубокая работа с большими объёмами текста. Модели проприетарны, доступны через API и интерфейс.

Gemini 2.5 Pro (Google DeepMind)

Мультимодальная модель, тесно интегрированная с поиском Google и облачной инфраструктурой. Gemini 2.5 Pro отличается очень большим контекстным окном (до 1–2 млн токенов), нативной обработкой видео и аудио, сильными математическими и научными рассуждениями. Преимущество — доступ к свежей информации через поисковый индекс, мощная аппаратная база TPU, широкий набор сервисов Google. Проприетарная модель.

Llama 4 (Meta)

Открытое семейство моделей (open-weight) от Meta, продолжающее линию Llama 2 и 3. Llama 4 доступна в размерах от нескольких миллиардов до сотен миллиардов параметров, поддерживает мультимодальность и многозначие. Главное преимущество — открытость: исследователи и компании могут свободно загружать, дообучать и развёртывать модель на своём оборудовании, что стимулирует сообщество и создание производных инструментов. Качество несколько уступает лучшим проприетарным моделям, но быстро сокращает отставание.

DeepSeek-V3 и DeepSeek-R1 (DeepSeek)

Китайские модели, продемонстрировавшие выдающуюся эффективность. DeepSeek-V3 — модель с архитектурой MoE, обученная с использованием предсказания нескольких токенов (multi-token prediction) и с крайне экономичным бюджетом. DeepSeek-R1 специализируется на рассуждениях, достигая уровня OpenAI o1 при значительно меньшей стоимости инференса. Открытые веса и детальные технические отчёты делают их привлекательными для академических исследований и коммерческого внедрения с контролируемым бюджетом[7].

Qwen3 (Alibaba)

Серия открытых мультимодальных моделей, охватывающая текст, изображения, аудио и видео. Qwen3 отличается широкой поддержкой языков (особенно азиатских), хорошей производительностью в генерации кода и визуальном понимании. Модели доступны в размерах от 0,5B до 235B параметров (MoE), что позволяет развёртывать их на устройствах с ограниченными ресурсами. Конкурентное преимущество — открытость, мультимодальность и сильная экосистема инструментов для разработчиков.

Сравнительная таблица

Сравнение ведущих LLM (по состоянию на 2026 год)
Модель Организация Открытость Мультимодальность Контекст (макс.) Сильные стороны
GPT-4o OpenAI Проприетарная Текст, изображение, аудио ~128k токенов Экосистема, скорость, универсальность
Claude 4 Anthropic Проприетарная Текст, изображение ~500k токенов Безопасность, честность, работа с длинными документами
Gemini 2.5 Pro Google DeepMind Проприетарная Текст, изображение, аудио, видео ~2M токенов Интеграция с поиском, научные рассуждения, длинный контекст
Llama 4 Meta Открытые веса Текст, изображение ~128k–1M токенов (вариативно) Открытость, сообщество, адаптируемость
DeepSeek-V3/R1 DeepSeek Открытые веса Текст ~128k токенов Эффективность, сильное рассуждение, низкая стоимость
Qwen3 Alibaba Открытые веса Текст, изображение, аудио, видео ~1M токенов Мультимодальность, многозначие, широкий размерный ряд

См. также

Литература

  • Vaswani A. и др. Attention Is All You Need // NeurIPS. — 2017.
  • Radford A. и др. Language Models are Unsupervised Multitask Learners (GPT-2) // OpenAI Blog. — 2019.
  • Brown T. B. и др. Language Models are Few-Shot Learners (GPT-3) // NeurIPS. — 2020.
  • Ouyang L. и др. Training language models to follow instructions with human feedback // NeurIPS. — 2022.
  • Hu E. J. и др. LoRA: Low-Rank Adaptation of Large Language Models // ICLR. — 2022.
  • Lewis P. и др. Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks // NeurIPS. — 2020.
  • Shazeer N. и др. Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer // ICLR. — 2017.
  • Wei J. и др. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models // NeurIPS. — 2022.
  • DeepSeek-AI DeepSeek-V3 Technical Report // arXiv preprint. — 2025.
  • Anonymous Engram: Scaling up a Differentiable Memory for Large-Scale Knowledge Retrieval // arXiv preprint. — 2023.
  • Anonymous LLaDA: Large Language Diffusion with mAsked Diffusion // arXiv preprint. — 2025.