Ридж-регрессия

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(переработка)
Строка 12: Строка 12:
==Описание метода==
==Описание метода==
-
===Число обусловленности===
+
===Дополнительное определение===
Пусть <tex>\Sigma=X^T X</tex>.
Пусть <tex>\Sigma=X^T X</tex>.
Строка 27: Строка 27:
где <tex>\tau</tex> - коэффициент регуляризации.
где <tex>\tau</tex> - коэффициент регуляризации.
-
МНК (регуляризованное) решение:
+
МНК (регуляризованное) решение получается таким
<tex>\hat{Q}_\tau=(X^T X+\tau I_k)^{-1}X^T y</tex>
<tex>\hat{Q}_\tau=(X^T X+\tau I_k)^{-1}X^T y</tex>
-
Для любого собственного значения <tex>\lambda</tex> и собственного вектора <tex>v</tex> матрицы <tex>X^T X</tex> верно:
 
-
<tex>X^T Xv=\lambda v</tex>.
+
У матриц <tex>X^T X</tex> и <tex>(X^X+\tau I_k)</tex> собственные вектора совпадают, а собственным значением различаются на <tex>\tau</tex>. Поэтому
 +
число обусловленности для матрицы <tex>X^T X+\tau I</tex> равно
-
Для <tex>(X^X+\tau I_k)</tex> <tex>v</tex> остаётся собственным вектором, но с другим собственным значением <tex>\lambda'</tex>
+
<tex>\mu(X^T X+\tau I)=\frac{\lambda_{max}+\tau}{\lambda_{min}+\tau}</tex>.
-
<tex>X^T Xv+\tau v=\lambda ' v</tex>
+
Получается, что чем больше <tex>\tau</tex>, тем меньше число обусловленности. С ростом <tex>\tau</tex> возрастает устойчивость задачи.
-
<tex>\lambda'=\lambda+\tau</tex>
+
При сингулярном разложении получаем.
-
Тогда число обусловленности для матрицы <tex>X^T X+\tau I</tex> равно
+
<tex>||\hat{Q}||^2=\sum_{j=1}^k \frac{1}{\lambda_j}(v_j^T y)^2</tex>
 +
 
 +
<tex>||\hat{Q}_\tau||^2=\sum_{j=1}^k \frac{1}{\lambda_j+\tau}(v_j^T y)^2</tex>
 +
 
 +
Они различаются только на сомножитель.
 +
 
 +
Происходит сжатие коэффициентов (shrinkage). Понижается эффективная размерность, хотя количество признаков остаётся прежним.
 +
 
 +
Число признаков измеряется по формуле
 +
 
 +
<tex>tr X(X^T X)^{-1} X^T=tr I_k=k</tex>
 +
 
 +
После модификации число признаков становится равным
 +
 
 +
<tex>tr X(X^T X+\tau I)^{-1} X^T=tr diag(\frac{\lambda_j}{\lambda_j+\tau}=\sum_{j=1}^{k}\frac{\lambda_j}{\lambda_j+\tau}</tex>,
 +
 
 +
а это меньше <tex>k</tex>. Поэтому чем больше <tex>\tau</tex>, тем мень эффективная размерность.
-
<tex>\mu(X^T X+\tau I)=\frac{\lambda_{max}+\tau}{\lambda_{min}+\tau}</tex>.
 
-
Получается, что чем больше <tex>\tau</tex>, тем меньше число обусловленности. С ростом <tex>\tau</tex> возрастает устойчивость задачи.
 
Строка 68: Строка 82:
== Ссылки ==
== Ссылки ==
-
 
+
[http://en.wikipedia.org/wiki/Ridge_regression Ridge regression]
[[Категория: Прикладная статистика]][[Категория:Регрессионные модели]]
[[Категория: Прикладная статистика]][[Категория:Регрессионные модели]]
-
{{UnderConstruction|[[Участник:Ekaterina Mikhaylova|Ekaterina Mikhaylova]] 06:22, 11 января 2009 (MSK)}}
 

Версия 23:10, 11 января 2009

Ридж-регрессия или гребневая регрессия (англ. ridge regression) - это один из методов понижения размерности. Часто его применяют для борьбы с переизбыточностью данных, когда независимые переменные коррелируют друг с другом (т.е. имеет место мультиколлинеарность). Следствием этого является плохая обусловленность матрицы X^T X и неустойчивость оценок коэффициентов регрессии. Оценки, например, могут иметь неправильный знак или значения, которые намного превосходят те, которые приемлемы из физических или практических соображений.

Метод стоит использовать, если:

  • сильная обусловленность;
  • сильно различаются собственные значения или некоторые из них близки к нулю;
  • в матрице X есть пости линено зависимые столбцы.


Содержание

Пример задачи

Предположим признаки в задаче были плохо отбранны экспертами в X присутствуют данные о длине, выраженные с сантиметрах и дюймах. Легко видеть, что эти данные линейно зависимы.

Описание метода

Дополнительное определение

Пусть \Sigma=X^T X.

Число обусловленности равно \mu(\Sigma)=||\Sigma||\cdot||\Sigma^{-1}||=\frac{\max_{u:||u||=1} ||\Sigma_u ||}{\min_{u:||u||=1} ||\Sigma_u ||}=\frac{\lambda_{max}}{\lambda_{min}},

где \lambda_{max},\ \lambda_{min} собственные значения \Sigma.

Гребневая регрессия

Вводится модифицированный функционал

Q_{\tau}=|| y -X\theta||^2+\tau||\theta||^2\to min_{\theta}

где \tau - коэффициент регуляризации.

МНК (регуляризованное) решение получается таким

\hat{Q}_\tau=(X^T X+\tau I_k)^{-1}X^T y


У матриц X^T X и (X^X+\tau I_k) собственные вектора совпадают, а собственным значением различаются на \tau. Поэтому число обусловленности для матрицы X^T X+\tau I равно

\mu(X^T X+\tau I)=\frac{\lambda_{max}+\tau}{\lambda_{min}+\tau}.

Получается, что чем больше \tau, тем меньше число обусловленности. С ростом \tau возрастает устойчивость задачи.

При сингулярном разложении получаем.

||\hat{Q}||^2=\sum_{j=1}^k \frac{1}{\lambda_j}(v_j^T y)^2

||\hat{Q}_\tau||^2=\sum_{j=1}^k \frac{1}{\lambda_j+\tau}(v_j^T y)^2

Они различаются только на сомножитель.

Происходит сжатие коэффициентов (shrinkage). Понижается эффективная размерность, хотя количество признаков остаётся прежним.

Число признаков измеряется по формуле

tr X(X^T X)^{-1} X^T=tr I_k=k

После модификации число признаков становится равным

tr X(X^T X+\tau I)^{-1} X^T=tr diag(\frac{\lambda_j}{\lambda_j+\tau}=\sum_{j=1}^{k}\frac{\lambda_j}{\lambda_j+\tau},

а это меньше k. Поэтому чем больше \tau, тем мень эффективная размерность.



Литература

  • Норман Дрейпер, Гарри Смит Прикладной регрессионный анализ. Множественная регрессия = Applied Regression Analysis. — 3-е изд. — М.: «Диалектика», 2007. — С. 912. — ISBN 0-471-17082-8


См. также

Ссылки

Ridge regression

Личные инструменты