LoRA

Материал из MachineLearning.

Перейти к: навигация, поиск
Статья написана с использованием LLM Claude Opus 4.8 и проверена участником Iaroslav Lyakhov 20:12, 1 июля 2026 (MSD)


Содержание

LoRA (англ. Low-Rank Adaptation, низкоранговая адаптация) - метод экономного дообучения больших нейросетевых моделей, при котором веса предобученной модели замораживаются, а обучается лишь небольшое число дополнительных параметров в виде низкоранговых матриц. LoRA относится к семейству методов PEFT (parameter-efficient fine-tuning) и стала стандартным способом адаптации больших языковых моделей под конкретные задачи при ограниченных ресурсах. Предложена исследователями Microsoft (Hu et al., 2021).

Проблема

Полное дообучение современной LLM требует хранить и обновлять все её параметры (миллиарды весов), а также состояния оптимизатора - это десятки и сотни гигабайт памяти GPU. Для каждой новой задачи приходится хранить отдельную полную копию модели. Это дорого и непрактично.

Идея

LoRA опирается на гипотезу: обновление весов при дообучении имеет низкий внутренний ранг. Вместо того чтобы менять матрицу весов W_0 \in \mathbb{R}^{d\times k} напрямую, её приращение представляют произведением двух узких матриц:

W = W_0 + \Delta W = W_0 + B A, \quad A \in \mathbb{R}^{r\times k},\; B \in \mathbb{R}^{d\times r}

где ранг r \ll \min(d,k) (часто 4-64). Исходная матрица W_0 заморожена; обучаются только A и B. Число обучаемых параметров падает в тысячи раз. При запуске поправка масштабируется коэффициентом \alpha/r.

При инициализации B=0, поэтому в начале обучения \Delta W = 0 и модель эквивалентна исходной.

Преимущества

  • Экономия памяти - обучаемых параметров на порядки меньше (нередко менее 1 % от общего числа), и не нужно хранить состояния оптимизатора для замороженных весов.
  • Малый размер артефакта - адаптер занимает мегабайты; для разных задач хранят набор маленьких адаптеров поверх одной базовой модели.
  • Отсутствие задержки на инференсе - обученную поправку BA можно сложить с W_0 (merge), получив обычную матрицу без дополнительных операций.
  • Горячая замена - адаптеры под разные задачи подключаются и отключаются на лету.

QLoRA и развитие

QLoRA (2023) объединяет LoRA с 4-битным квантованием базовой модели, что позволяет дообучать модели с десятками миллиардов параметров на одном потребительском GPU. Другие развития - AdaLoRA (адаптивное распределение ранга по слоям), DoRA и др.

Связь с другими методами

LoRA - представитель PEFT наряду с адаптерами (adapter tuning), prefix-tuning и prompt-tuning. В парадигме переноса обучения она дёшево адаптирует фундаментальную модель под конкретную задачу: базовые веса, полученные самостоятельным обучением, остаются неизменными, а градиентным спуском настраиваются лишь низкоранговые поправки. В отличие от дистилляции, сжимающей модель, LoRA не уменьшает базовую модель, а дёшево её специализирует.

Ограничения

  • Качество может уступать полному дообучению на задачах, сильно отличающихся от предобучения.
  • Нужно выбирать ранг r и слои, к которым применяется адаптация (обычно матрицы внимания).

См. также

Литература

  • Hu E. и др. Proc. of ICLR. — 2022.
  • Dettmers T. и др. Advances in Neural Information Processing Systems (NeurIPS). — 2023.
Личные инструменты