LoRA

Материал из MachineLearning.

Версия от 16:12, 1 июля 2026; Iaroslav Lyakhov (Обсуждение | вклад)

(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)

Статья написана с использованием LLM Claude Opus 4.8 и проверена участником Iaroslav Lyakhov 20:12, 1 июля 2026 (MSD)

Содержание

1 Проблема
2 Идея
3 Преимущества
4 QLoRA и развитие
5 Связь с другими методами
6 Ограничения
7 См. также
8 Литература

LoRA (англ. Low-Rank Adaptation, низкоранговая адаптация) - метод экономного дообучения больших нейросетевых моделей, при котором веса предобученной модели замораживаются, а обучается лишь небольшое число дополнительных параметров в виде низкоранговых матриц. LoRA относится к семейству методов PEFT (parameter-efficient fine-tuning) и стала стандартным способом адаптации больших языковых моделей под конкретные задачи при ограниченных ресурсах. Предложена исследователями Microsoft (Hu et al., 2021).

Проблема

Полное дообучение современной LLM требует хранить и обновлять все её параметры (миллиарды весов), а также состояния оптимизатора - это десятки и сотни гигабайт памяти GPU. Для каждой новой задачи приходится хранить отдельную полную копию модели. Это дорого и непрактично.

Идея

LoRA опирается на гипотезу: обновление весов при дообучении имеет низкий внутренний ранг. Вместо того чтобы менять матрицу весов $W_0 \in \mathbb{R}^{d\times k}$ напрямую, её приращение представляют произведением двух узких матриц:

$W = W_0 + \Delta W = W_0 + B A, \quad A \in \mathbb{R}^{r\times k},\; B \in \mathbb{R}^{d\times r}$

где ранг $r \ll \min(d,k)$ (часто 4-64). Исходная матрица $W_0$ заморожена; обучаются только $A$ и $B$ . Число обучаемых параметров падает в тысячи раз. При запуске поправка масштабируется коэффициентом $\alpha/r$ .

При инициализации $B=0$ , поэтому в начале обучения $\Delta W = 0$ и модель эквивалентна исходной.

Преимущества

Экономия памяти - обучаемых параметров на порядки меньше (нередко менее 1 % от общего числа), и не нужно хранить состояния оптимизатора для замороженных весов.
Малый размер артефакта - адаптер занимает мегабайты; для разных задач хранят набор маленьких адаптеров поверх одной базовой модели.
Отсутствие задержки на инференсе - обученную поправку $BA$ можно сложить с $W_0$ (merge), получив обычную матрицу без дополнительных операций.
Горячая замена - адаптеры под разные задачи подключаются и отключаются на лету.

QLoRA и развитие

QLoRA (2023) объединяет LoRA с 4-битным квантованием базовой модели, что позволяет дообучать модели с десятками миллиардов параметров на одном потребительском GPU. Другие развития - AdaLoRA (адаптивное распределение ранга по слоям), DoRA и др.

Связь с другими методами

LoRA - представитель PEFT наряду с адаптерами (adapter tuning), prefix-tuning и prompt-tuning. В парадигме переноса обучения она дёшево адаптирует фундаментальную модель под конкретную задачу: базовые веса, полученные самостоятельным обучением, остаются неизменными, а градиентным спуском настраиваются лишь низкоранговые поправки. В отличие от дистилляции, сжимающей модель, LoRA не уменьшает базовую модель, а дёшево её специализирует.

Ограничения

Качество может уступать полному дообучению на задачах, сильно отличающихся от предобучения.
Нужно выбирать ранг $r$ и слои, к которым применяется адаптация (обычно матрицы внимания).

См. также

Литература

Hu E. и др. Proc. of ICLR. — 2022.
Dettmers T. и др. Advances in Neural Information Processing Systems (NeurIPS). — 2023.

Источник — «http://machinelearning.ru/wiki/index.php?title=LoRA»

Категории: Машинное обучение | Нейронные сети

LoRA

Материал из MachineLearning.

Содержание

Проблема

Идея

Преимущества

QLoRA и развитие

Связь с другими методами

Ограничения

См. также

Литература

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты