LoRA
Материал из MachineLearning.
| | Статья написана с использованием LLM Claude Opus 4.8 и проверена участником Iaroslav Lyakhov 20:12, 1 июля 2026 (MSD) |
|
LoRA (англ. Low-Rank Adaptation, низкоранговая адаптация) - метод экономного дообучения больших нейросетевых моделей, при котором веса предобученной модели замораживаются, а обучается лишь небольшое число дополнительных параметров в виде низкоранговых матриц. LoRA относится к семейству методов PEFT (parameter-efficient fine-tuning) и стала стандартным способом адаптации больших языковых моделей под конкретные задачи при ограниченных ресурсах. Предложена исследователями Microsoft (Hu et al., 2021).
Проблема
Полное дообучение современной LLM требует хранить и обновлять все её параметры (миллиарды весов), а также состояния оптимизатора - это десятки и сотни гигабайт памяти GPU. Для каждой новой задачи приходится хранить отдельную полную копию модели. Это дорого и непрактично.
Идея
LoRA опирается на гипотезу: обновление весов при дообучении имеет низкий внутренний ранг. Вместо того чтобы менять матрицу весов напрямую, её приращение представляют произведением двух узких матриц:
где ранг (часто 4-64). Исходная матрица
заморожена; обучаются только
и
. Число обучаемых параметров падает в тысячи раз. При запуске поправка масштабируется коэффициентом
.
При инициализации , поэтому в начале обучения
и модель эквивалентна исходной.
Преимущества
- Экономия памяти - обучаемых параметров на порядки меньше (нередко менее 1 % от общего числа), и не нужно хранить состояния оптимизатора для замороженных весов.
- Малый размер артефакта - адаптер занимает мегабайты; для разных задач хранят набор маленьких адаптеров поверх одной базовой модели.
- Отсутствие задержки на инференсе - обученную поправку
можно сложить с
(merge), получив обычную матрицу без дополнительных операций.
- Горячая замена - адаптеры под разные задачи подключаются и отключаются на лету.
QLoRA и развитие
QLoRA (2023) объединяет LoRA с 4-битным квантованием базовой модели, что позволяет дообучать модели с десятками миллиардов параметров на одном потребительском GPU. Другие развития - AdaLoRA (адаптивное распределение ранга по слоям), DoRA и др.
Связь с другими методами
LoRA - представитель PEFT наряду с адаптерами (adapter tuning), prefix-tuning и prompt-tuning. В парадигме переноса обучения она дёшево адаптирует фундаментальную модель под конкретную задачу: базовые веса, полученные самостоятельным обучением, остаются неизменными, а градиентным спуском настраиваются лишь низкоранговые поправки. В отличие от дистилляции, сжимающей модель, LoRA не уменьшает базовую модель, а дёшево её специализирует.
Ограничения
- Качество может уступать полному дообучению на задачах, сильно отличающихся от предобучения.
- Нужно выбирать ранг
и слои, к которым применяется адаптация (обычно матрицы внимания).
См. также
- Большая языковая модель
- Дообучение
- Квантование нейронных сетей
- Дистилляция моделей
- Трансформер
- Смесь экспертов
Литература
- Hu E. и др. Proc. of ICLR. — 2022.
- Dettmers T. и др. Advances in Neural Information Processing Systems (NeurIPS). — 2023.

