Elastic Net

Материал из MachineLearning.

(Различия между версиями)

Текущая версия

Статья написана с использованием LLM Gemini 3.1 Pro и проверена участником Renal Gazizullin 15:40, 23 июня 2026 (MSD)

Содержание

1 Введение и формальная математическая постановка задачи
2 Геометрическая интерпретация
3 Эффект группировки признаков (Grouping Effect)
- 3.1 Наивный Elastic Net против масштабированного
4 Байесовская интерпретация
5 Вычислительные аспекты и методы оптимизации
- 5.1 Эксплуатация сильной выпуклости
6 Литература

Введение и формальная математическая постановка задачи

Регуляризация Elastic Net (эластичная сеть) — гибридный метод регуляризации моделей машинного обучения, объединяющий штрафы $L_1$ (LASSO) и $L_2$ (гребневая регрессия). Метод был предложен для преодоления фундаментальных ограничений LASSO: невозможности отобрать больше признаков, чем количество наблюдений ( $p > n$ ), и нестабильного поведения при наличии ярко выраженной мультиколлинеарности.

В классической линейной регрессии задача оптимизации Elastic Net формулируется следующим образом. Пусть $X \in \mathbb{R}^{n \times p}$ — матрица плана (объекты-признаки), а $y \in \mathbb{R}^n$ — вектор целевой переменной. Оценкой вектора весов $\hat{\beta}$ является решение оптимизационной задачи:

$\hat{\beta} = \arg\min_{\beta \in \mathbb{R}^p} \left( \frac{1}{2n} ||X\beta - y||_2^2 + \lambda_1 ||\beta||_1 + \lambda_2 ||\beta||_2^2 \right)$

Часто используется альтернативная параметризация через гиперпараметры $\alpha \in [0, 1]$ и $\lambda > 0$ , отражающая выпуклую комбинацию штрафов:

$\min_{\beta} \left( \frac{1}{2n} ||X\beta - y||_2^2 + \lambda \left( \alpha ||\beta||_1 + \frac{1-\alpha}{2} ||\beta||_2^2 \right) \right)$

Геометрическая интерпретация

Геометрически штрафная функция эластичной сети представляет собой компромисс между ромбом (изолиния $L_1$ ) и окружностью (изолиния $L_2$ ).

Функционал штрафа $P(\beta) = (1-\alpha)||\beta||_1 + \alpha||\beta||_2^2$ строго выпуклый при $\alpha > 0$ . Строгая выпуклость гарантирует единственность решения оптимизационной задачи в случае вырожденной матрицы $X^T X$ . При этом контур штрафа сохраняет сингулярности (изломы) на осях координат, что критически важно для обеспечения свойства разреженности (зануления нерелевантных весов), присущего LASSO, но недостижимого в чистой гребневой регрессии.

Эффект группировки признаков (Grouping Effect)

Наиболее важным аналитическим свойством Elastic Net является способность к групповому отбору сильно коррелированных переменных. Если группа признаков имеет высокую попарную корреляцию, LASSO имеет тенденцию произвольно выбирать один признак из группы, обнуляя остальные. Эластичная сеть назначает таким признакам схожие (или идентичные) весовые коэффициенты.

Теорема (Зоу, Хасти, 2005)^[1]. Пусть предикторы стандартизированы. Для любых двух признаков $x_i$ и $x_j$ с выборочной корреляцией $\rho = x_i^T x_j$ , разность их оптимальных коэффициентов в модели Elastic Net ограничена:

$|\hat{\beta}_i - \hat{\beta}_j| \le \frac{||y||_2}{\lambda_2} \sqrt{2(1-\rho)}$

Из неравенства прямо следует: если корреляция $\rho \to 1$ , то $\hat{\beta}_i \approx \hat{\beta}_j$ . Штраф $\lambda_2$ в знаменателе подтверждает, что именно $L_2$ -компонента отвечает за стягивание коэффициентов коррелированных признаков друг к другу.

Наивный Elastic Net против масштабированного

«Наивный» вариант эластичной сети (прямое решение задачи выше) подвергает коэффициенты двойному сжатию (double shrinkage), что вносит избыточное смещение в оценку и ухудшает предиктивную способность модели. Авторы метода доказали необходимость применения поправочного множителя. Финальная оценка вычисляется как масштабирование наивной оценки:

$\hat{\beta}_{EN} = (1 + \lambda_2) \hat{\beta}_{naive}$

Это преобразование сохраняет эффект отбора признаков и группировки, компенсируя излишнее стягивание к нулю, вызванное одновременным применением двух регуляризаторов.

Байесовская интерпретация

С точки зрения байесовской статистики, добавление штрафа эквивалентно введению априорного распределения на веса $\beta$ .

$L_1$ -регуляризация соответствует априорному распределению Лапласа.
$L_2$ -регуляризация соответствует априорному распределению Гаусса.

Априорное распределение эластичной сети пропорционально произведению этих плотностей:

$p(\beta) \propto \exp\left(-\lambda_1 ||\beta||_1 - \lambda_2 ||\beta||_2^2\right)$

Это ортонормальное априорное распределение (orthant-normal prior) обладает тяжелыми хвостами у нуля (как у Лапласа), но гауссовским затуханием на бесконечности, что обеспечивает баланс между разреженностью и стабильностью дисперсии апостериорных оценок.

Вычислительные аспекты и методы оптимизации

На практике для настройки Elastic Net применяется метод покоординатного спуска (Координатный спуск), реализованный в библиотеке `glmnet`. Однако при работе со сверхбольшими датасетами ( $n \gg 10^5$ ) на первый план выходят проксимальные стохастические методы^[1].

Эластичная сеть формулируется как минимизация композитного функционала $F(\beta) = f(\beta) + h(\beta)$ , где:

$f(\beta) = \frac{1}{2n} ||X\beta - y||_2^2 + \lambda_2 ||\beta||_2^2$ — гладкая эмпирическая компонента.
$h(\beta) = \lambda_1 ||\beta||_1$ — негладкий штраф.

Проксимальный оператор для $h(\beta)$ имеет аналитическое решение в виде оператора мягкого порогового отсечения (soft-thresholding):

$\text{prox}_{\eta h}(\beta)_j = \text{sign}(\beta_j) \max(|\beta_j| - \eta \lambda_1, 0)$

Эксплуатация сильной выпуклости

Фундаментальное вычислительное преимущество Elastic Net перед LASSO — добавление $\lambda_2 ||\beta||_2^2$ обеспечивает гладкой части $f(\beta)$ глобальную сильную выпуклость (strong convexity) с константой $\mu = 2\lambda_2$ .

Обычный LASSO часто приводит к плохо обусловленным задачам, где стохастический градиентный спуск сходится сублинейно. Сильная выпуклость Elastic Net кардинально меняет картину для современных алгоритмов с редукцией дисперсии (Variance Reduction):

SVRG (Stochastic Variance Reduced Gradient)
SAGA
SARAH (StochAstic Recursive grAdient algoritHm)

Благодаря строгой оценке $\mu > 0$ , проксимальные версии этих алгоритмов (Prox-SVRG, Prox-SAGA) достигают линейной скорости сходимости. В частности, для достижения точности $\epsilon$ требуется число итераций порядка:

$\mathcal{O}\left( \left(n + \frac{L}{\lambda_2}\right) \log\left(\frac{1}{\epsilon}\right) \right)$

где $L$ — константа Липшица градиента $\nabla f$ . Увеличение $\lambda_2$ напрямую улучшает число обусловленности $\kappa = L/\lambda_2$ , делая оптимизацию экспоненциально быстрее, чем в случае чистого LASSO, где теоретические гарантии требуют выполнения ограничительных условий изометрии (Restricted Eigenvalue Condition)^[1].

Литература

Источник — «http://machinelearning.ru/wiki/index.php?title=Elastic_Net»

Категории: Регрессионный анализ | Энциклопедия анализа данных | Математическая оптимизация | Методы регуляризации

@@ Строка 1: / Строка 1: @@
+{{well|Статья написана с использованием LLM '''Gemini 3.1 Pro''' и проверена участником [[Участник:Renal Gazizullin|Renal Gazizullin]] 15:40, 23 июня 2026 (MSD)}}
 == Введение и формальная математическая постановка задачи ==
 '''Регуляризация Elastic Net''' (''эластичная сеть'') — гибридный метод [[Регуляризация (математика)|регуляризации]] моделей машинного обучения, объединяющий штрафы <tex>L_1</tex> ([[Lasso-регрессия|LASSO]]) и <tex>L_2</tex> ([[Гребневая регрессия|гребневая регрессия]]). Метод был предложен для преодоления фундаментальных ограничений LASSO: невозможности отобрать больше признаков, чем количество наблюдений (<tex>p > n</tex>), и нестабильного поведения при наличии ярко выраженной [[Мультиколлинеарность|мультиколлинеарности]].