Ридж-регрессия
Материал из MachineLearning.
(орфография) |
|||
Строка 1: | Строка 1: | ||
- | |||
- | |||
'''Ридж-регрессия или гребневая регрессия''' (англ. ridge regression) - это один из методов понижения размерности. Часто его применяют для борьбы с переизбыточностью данных, когда независимые переменные коррелируют друг с другом (т.е. имеет место [[Проблема мультиколлинеарности|мультиколлинеарность]]). Следствием этого является плохая обусловленность матрицы <tex>X^T X</tex> и неустойчивость оценок коэффициентов регрессии. Оценки, например, могут иметь неправильный знак или значения, которые намного превосходят те, которые приемлемы из физических или практических соображений. | '''Ридж-регрессия или гребневая регрессия''' (англ. ridge regression) - это один из методов понижения размерности. Часто его применяют для борьбы с переизбыточностью данных, когда независимые переменные коррелируют друг с другом (т.е. имеет место [[Проблема мультиколлинеарности|мультиколлинеарность]]). Следствием этого является плохая обусловленность матрицы <tex>X^T X</tex> и неустойчивость оценок коэффициентов регрессии. Оценки, например, могут иметь неправильный знак или значения, которые намного превосходят те, которые приемлемы из физических или практических соображений. | ||
Версия 08:40, 10 января 2009
Ридж-регрессия или гребневая регрессия (англ. ridge regression) - это один из методов понижения размерности. Часто его применяют для борьбы с переизбыточностью данных, когда независимые переменные коррелируют друг с другом (т.е. имеет место мультиколлинеарность). Следствием этого является плохая обусловленность матрицы и неустойчивость оценок коэффициентов регрессии. Оценки, например, могут иметь неправильный знак или значения, которые намного превосходят те, которые приемлемы из физических или практических соображений.
Метод стоит использовать, если:
- сильная обусловленность;
- сильно различаются собственные значения или некоторые из них близки к нулю;
- в матрице есть пости линено зависимые столбцы.
Содержание |
Пример задачи
Предположим признаки в задаче были плохо отбранны экспертами в присутствуют данные о длине, выраженные с сантиметрах и дюймах. Легко видеть, что эти данные линейно зависимы.
Описание метода
Число обусловленности
Пусть .
Число обусловленности равно ,
где собственные значения .
Гребневая регрессия
Вводится модифицированный функционал
где - коэффициент регуляризации.
МНК (регуляризованное) решение:
Для любого собственного значения и собственного вектора матрицы верно:
.
Для остаётся собственным вектором, но с другим собственным значением
Тогда число обусловленности для матрицы равно
.
Получается, что чем больше , тем меньше число обусловленности. С ростом возрастает устойчивость задачи.
Литература
- Норман Дрейпер, Гарри Смит Прикладной регрессионный анализ. Множественная регрессия = Applied Regression Analysis. — 3-е изд. — М.: «Диалектика», 2007. — С. 912. — ISBN 0-471-17082-8