Ридж-регрессия

Материал из MachineLearning.

Версия от 23:10, 11 января 2009; Ekaterina Mikhaylova (Обсуждение | вклад)

(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)

Ридж-регрессия или гребневая регрессия (англ. ridge regression) - это один из методов понижения размерности. Часто его применяют для борьбы с переизбыточностью данных, когда независимые переменные коррелируют друг с другом (т.е. имеет место мультиколлинеарность). Следствием этого является плохая обусловленность матрицы $X^T X$ и неустойчивость оценок коэффициентов регрессии. Оценки, например, могут иметь неправильный знак или значения, которые намного превосходят те, которые приемлемы из физических или практических соображений.

Метод стоит использовать, если:

сильная обусловленность;
сильно различаются собственные значения или некоторые из них близки к нулю;
в матрице $X$ есть пости линено зависимые столбцы.

Содержание

1 Пример задачи
2 Описание метода
- 2.1 Дополнительное определение
- 2.2 Гребневая регрессия
3 Литература
4 См. также
5 Ссылки

Пример задачи

Предположим признаки в задаче были плохо отбранны экспертами в $X$ присутствуют данные о длине, выраженные с сантиметрах и дюймах. Легко видеть, что эти данные линейно зависимы.

Описание метода

Дополнительное определение

Пусть $\Sigma=X^T X$ .

Число обусловленности равно $\mu(\Sigma)=||\Sigma||\cdot||\Sigma^{-1}||=\frac{\max_{u:||u||=1} ||\Sigma_u ||}{\min_{u:||u||=1} ||\Sigma_u ||}=\frac{\lambda_{max}}{\lambda_{min}}$ ,

где $\lambda_{max},\ \lambda_{min}$ собственные значения $\Sigma$ .

Гребневая регрессия

Вводится модифицированный функционал

$Q_{\tau}=|| y -X\theta||^2+\tau||\theta||^2\to min_{\theta}$

где $\tau$ - коэффициент регуляризации.

МНК (регуляризованное) решение получается таким

$\hat{Q}_\tau=(X^T X+\tau I_k)^{-1}X^T y$

У матриц $X^T X$ и $(X^X+\tau I_k)$ собственные вектора совпадают, а собственным значением различаются на $\tau$ . Поэтому число обусловленности для матрицы $X^T X+\tau I$ равно

$\mu(X^T X+\tau I)=\frac{\lambda_{max}+\tau}{\lambda_{min}+\tau}$ .

Получается, что чем больше $\tau$ , тем меньше число обусловленности. С ростом $\tau$ возрастает устойчивость задачи.

При сингулярном разложении получаем.

$||\hat{Q}||^2=\sum_{j=1}^k \frac{1}{\lambda_j}(v_j^T y)^2$

$||\hat{Q}_\tau||^2=\sum_{j=1}^k \frac{1}{\lambda_j+\tau}(v_j^T y)^2$

Они различаются только на сомножитель.

Происходит сжатие коэффициентов (shrinkage). Понижается эффективная размерность, хотя количество признаков остаётся прежним.

Число признаков измеряется по формуле

$tr X(X^T X)^{-1} X^T=tr I_k=k$

После модификации число признаков становится равным

$tr X(X^T X+\tau I)^{-1} X^T=tr diag(\frac{\lambda_j}{\lambda_j+\tau}=\sum_{j=1}^{k}\frac{\lambda_j}{\lambda_j+\tau}$ ,

а это меньше $k$ . Поэтому чем больше $\tau$ , тем мень эффективная размерность.

Литература

Норман Дрейпер, Гарри Смит Прикладной регрессионный анализ. Множественная регрессия = Applied Regression Analysis. — 3-е изд. — М.: «Диалектика», 2007. — С. 912. — ISBN 0-471-17082-8

См. также

Ссылки

Ridge regression

Источник — «http://machinelearning.ru/wiki/index.php?title=%D0%A0%D0%B8%D0%B4%D0%B6-%D1%80%D0%B5%D0%B3%D1%80%D0%B5%D1%81%D1%81%D0%B8%D1%8F»

Категории: Прикладная статистика | Регрессионные модели

Ридж-регрессия

Материал из MachineLearning.

Содержание

Пример задачи

Описание метода

Дополнительное определение

Гребневая регрессия

Литература

См. также

Ссылки

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты