Ридж-регрессия

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
Текущая версия (17:15, 18 октября 2017) (править) (отменить)
м (Гребневая регрессия)
 
(9 промежуточных версий не показаны.)
Строка 1: Строка 1:
'''Ридж-регрессия или гребневая регрессия''' (англ. ridge regression) - это один из методов понижения размерности. Часто его применяют для борьбы с переизбыточностью данных, когда независимые переменные коррелируют друг с другом (т.е. имеет место [[Проблема мультиколлинеарности|мультиколлинеарность]]). Следствием этого является плохая обусловленность матрицы <tex>X^T X</tex> и неустойчивость оценок коэффициентов регрессии. Оценки, например, могут иметь неправильный знак или значения, которые намного превосходят те, которые приемлемы из физических или практических соображений.
'''Ридж-регрессия или гребневая регрессия''' (англ. ridge regression) - это один из методов понижения размерности. Часто его применяют для борьбы с переизбыточностью данных, когда независимые переменные коррелируют друг с другом (т.е. имеет место [[Проблема мультиколлинеарности|мультиколлинеарность]]). Следствием этого является плохая обусловленность матрицы <tex>X^T X</tex> и неустойчивость оценок коэффициентов регрессии. Оценки, например, могут иметь неправильный знак или значения, которые намного превосходят те, которые приемлемы из физических или практических соображений.
 +
 +
Применение гребневой регрессии нередко оправдывают тем, что это практический приём, с помощью которого при желании можно получить меньшее значение среднего квадрата ошибки.
Метод стоит использовать, если:
Метод стоит использовать, если:
* сильная обусловленность;
* сильная обусловленность;
* сильно различаются собственные значения или некоторые из них близки к нулю;
* сильно различаются собственные значения или некоторые из них близки к нулю;
-
* в матрице <tex>X</tex> есть пости линено зависимые столбцы.
+
* в матрице <tex>X</tex> есть почти линейно зависимые столбцы.
==Пример задачи==
==Пример задачи==
-
Предположим признаки в задаче были плохо отбранны экспертами в <tex>X</tex> присутствуют данные о длине, выраженные с сантиметрах и дюймах. Легко видеть, что эти данные линейно зависимы.
+
Предположим признаки в задаче были плохо отобраны экспертами и в <tex>X</tex> присутствуют данные о длине, выраженные с сантиметрах и дюймах. Легко видеть, что эти данные линейно зависимы.
==Описание метода==
==Описание метода==
-
===Число обусловленности===
+
===Дополнительное определение===
Пусть <tex>\Sigma=X^T X</tex>.
Пусть <tex>\Sigma=X^T X</tex>.
Строка 23: Строка 25:
Вводится модифицированный функционал
Вводится модифицированный функционал
-
<tex>Q_{\tau}=|| y -X\theta||^2+\tau||\theta||^2\to min_{\theta}</tex>
+
<tex>Q_{\tau}=|| y -X\theta||^2+\tau||\theta||^2\to \min_{\theta}</tex>
-
где <tex>\tau</tex> - коэффициент регуляризации.
+
где <tex>\tau</tex> - коэффициент регуляризации. Это положительноe число, в приложениях обычно принимают <tex>\tau\in (0,1)</tex>
-
МНК (регуляризованное) решение:
+
МНК (регуляризованное) решение получается таким
<tex>\hat{Q}_\tau=(X^T X+\tau I_k)^{-1}X^T y</tex>
<tex>\hat{Q}_\tau=(X^T X+\tau I_k)^{-1}X^T y</tex>
-
Для любого собственного значения <tex>\lambda</tex> и собственного вектора <tex>v</tex> матрицы <tex>X^T X</tex> верно:
 
-
<tex>X^T Xv=\lambda v</tex>.
+
У матриц <tex>X^T X</tex> и <tex>(X^X+\tau I_k)</tex> собственные вектора совпадают, а собственным значением различаются на <tex>\tau</tex>. Поэтому
 +
число обусловленности для матрицы <tex>X^T X+\tau I</tex> равно
-
Для <tex>(X^X+\tau I_k)</tex> <tex>v</tex> остаётся собственным вектором, но с другим собственным значением <tex>\lambda'</tex>
+
<tex>\mu(X^T X+\tau I)=\frac{\lambda_{max}+\tau}{\lambda_{min}+\tau}</tex>.
-
<tex>X^T Xv+\tau v=\lambda ' v</tex>
+
Получается, что чем больше <tex>\tau</tex>, тем меньше число обусловленности. С ростом <tex>\tau</tex> возрастает устойчивость задачи.
-
<tex>\lambda'=\lambda+\tau</tex>
+
При сингулярном разложении получаем.
-
Тогда число обусловленности для матрицы <tex>X^T X+\tau I</tex> равно
+
<tex>||\hat{Q}||^2=\sum_{j=1}^k \frac{1}{\lambda_j}(v_j^T y)^2</tex>
-
<tex>\mu(X^T X+\tau I)=\frac{\lambda_{max}+\tau}{\lambda_{min}+\tau}</tex>.
+
<tex>||\hat{Q}_\tau||^2=\sum_{j=1}^k \frac{1}{\lambda_j+\tau}(v_j^T y)^2</tex>
-
Получается, что чем больше <tex>\tau</tex>, тем меньше число обусловленности. С ростом <tex>\tau</tex> возрастает устойчивость задачи.
+
Они различаются только на сомножитель.
 +
Происходит сжатие коэффициентов (shrinkage). Понижается эффективная размерность, хотя количество признаков остаётся прежним.
 +
 +
Число признаков измеряется по формуле
 +
 +
<tex>tr X(X^T X)^{-1} X^T=tr I_k=k</tex>
 +
 +
После модификации число признаков становится равным
 +
 +
<tex>tr X(X^T X+\tau I)^{-1} X^T=tr diag(\frac{\lambda_j}{\lambda_j+\tau})=\sum_{j=1}^{k}\frac{\lambda_j}{\lambda_j+\tau}</tex>,
 +
 +
а это меньше <tex>k</tex>. Поэтому чем больше <tex>\tau</tex>, тем меньше эффективная размерность.
== Литература ==
== Литература ==
Строка 61: Строка 74:
|isbn = 0-471-17082-8
|isbn = 0-471-17082-8
}}
}}
-
 
+
* Стрижов В.В., Крымова Е.А. Методы выбора регрессионных моделей. М.: ВЦ РАН, 2010. 60&nbsp;с. [[Media:Strijov-Krymova10Model-Selection.pdf|Брошюра, PDF]].
== См. также ==
== См. также ==
-
* [[Проблема мультиколлинеарности]]
+
* [[Мультиколлинеарность]]
-
* [[Анализ структуры линейной регрессионной модели]]
+
* [[Лассо]]
 +
* [[LARS]]
 +
* [[Регрессионный анализ]]
 +
* [[Анализ структуры линейной регрессионной модели]]
== Ссылки ==
== Ссылки ==
 +
[http://en.wikipedia.org/wiki/Ridge_regression Ridge regression]
-
 
+
[[Категория: Прикладная статистика]]
-
[[Категория: Прикладная статистика]][[Категория:Регрессионные модели]]
+
[[Категория:Регрессионный анализ]]
-
{{UnderConstruction|[[Участник:Ekaterina Mikhaylova|Ekaterina Mikhaylova]] 06:22, 11 января 2009 (MSK)}}
+

Текущая версия

Ридж-регрессия или гребневая регрессия (англ. ridge regression) - это один из методов понижения размерности. Часто его применяют для борьбы с переизбыточностью данных, когда независимые переменные коррелируют друг с другом (т.е. имеет место мультиколлинеарность). Следствием этого является плохая обусловленность матрицы X^T X и неустойчивость оценок коэффициентов регрессии. Оценки, например, могут иметь неправильный знак или значения, которые намного превосходят те, которые приемлемы из физических или практических соображений.

Применение гребневой регрессии нередко оправдывают тем, что это практический приём, с помощью которого при желании можно получить меньшее значение среднего квадрата ошибки.

Метод стоит использовать, если:

  • сильная обусловленность;
  • сильно различаются собственные значения или некоторые из них близки к нулю;
  • в матрице X есть почти линейно зависимые столбцы.


Содержание

Пример задачи

Предположим признаки в задаче были плохо отобраны экспертами и в X присутствуют данные о длине, выраженные с сантиметрах и дюймах. Легко видеть, что эти данные линейно зависимы.

Описание метода

Дополнительное определение

Пусть \Sigma=X^T X.

Число обусловленности равно \mu(\Sigma)=||\Sigma||\cdot||\Sigma^{-1}||=\frac{\max_{u:||u||=1} ||\Sigma_u ||}{\min_{u:||u||=1} ||\Sigma_u ||}=\frac{\lambda_{max}}{\lambda_{min}},

где \lambda_{max},\ \lambda_{min} собственные значения \Sigma.

Гребневая регрессия

Вводится модифицированный функционал

Q_{\tau}=|| y -X\theta||^2+\tau||\theta||^2\to \min_{\theta}

где \tau - коэффициент регуляризации. Это положительноe число, в приложениях обычно принимают \tau\in (0,1)

МНК (регуляризованное) решение получается таким

\hat{Q}_\tau=(X^T X+\tau I_k)^{-1}X^T y


У матриц X^T X и (X^X+\tau I_k) собственные вектора совпадают, а собственным значением различаются на \tau. Поэтому число обусловленности для матрицы X^T X+\tau I равно

\mu(X^T X+\tau I)=\frac{\lambda_{max}+\tau}{\lambda_{min}+\tau}.

Получается, что чем больше \tau, тем меньше число обусловленности. С ростом \tau возрастает устойчивость задачи.

При сингулярном разложении получаем.

||\hat{Q}||^2=\sum_{j=1}^k \frac{1}{\lambda_j}(v_j^T y)^2

||\hat{Q}_\tau||^2=\sum_{j=1}^k \frac{1}{\lambda_j+\tau}(v_j^T y)^2

Они различаются только на сомножитель.

Происходит сжатие коэффициентов (shrinkage). Понижается эффективная размерность, хотя количество признаков остаётся прежним.

Число признаков измеряется по формуле

tr X(X^T X)^{-1} X^T=tr I_k=k

После модификации число признаков становится равным

tr X(X^T X+\tau I)^{-1} X^T=tr  diag(\frac{\lambda_j}{\lambda_j+\tau})=\sum_{j=1}^{k}\frac{\lambda_j}{\lambda_j+\tau},

а это меньше k. Поэтому чем больше \tau, тем меньше эффективная размерность.

Литература

  • Норман Дрейпер, Гарри Смит Прикладной регрессионный анализ. Множественная регрессия = Applied Regression Analysis. — 3-е изд. — М.: «Диалектика», 2007. — С. 912. — ISBN 0-471-17082-8
  • Стрижов В.В., Крымова Е.А. Методы выбора регрессионных моделей. М.: ВЦ РАН, 2010. 60 с. Брошюра, PDF.

См. также

Ссылки

Ridge regression

Личные инструменты