Метод Белсли
Материал из MachineLearning.
м (→Анализ коллинеарности) |
м (→Анализ коллинеарности) |
||
Строка 12: | Строка 12: | ||
И рассмотрим разбиение<br/> | И рассмотрим разбиение<br/> | ||
<tex> | <tex> | ||
- | D=\begin{bmatrix} D_{s\times s} & O_{s \times (p-s)} \\ O_{(p-s) \times s} & D_{(p-s)\times (p-s)} \end{bmatrix}. | + | D=\begin{bmatrix} D_{s\times s} & O_{s \times (p-s)} \\ O_{(p-s) \times s} & D_{(p-s)\times (p-s)} \end{bmatrix}, |
+ | </tex> | ||
+ | где <tex>D_{s\times s}</tex> и <tex>D_{(p-s)\times (p-s)}</tex> диогональные, и недиогональнык блоки нулевые. <tex>D_{s\times s}</tex>, или просто <tex>D_{S}</tex>, содержит достаточно большие сингулярные значения, а <tex>D_{(p-s)\times (p-s)}</tex>, или <tex>D_{N}</tex>, содержит близкие к нулю. | ||
+ | Теперь разделим <tex>U</tex> и <tex>V</tex> соответственно: <br/> | ||
+ | <tex> | ||
+ | U=(U_{n\times s} U_{n \times (p-s)}) = (U_{S} U_{N}) | ||
+ | </tex> | ||
+ | <tex> | ||
+ | V=(U_{p\times s} V_{p \times (p-s)}) = (V_{S} V_{N}), | ||
</tex> | </tex> | ||
Версия 14:44, 27 июня 2010
Линейные регрессионные модели часто используются для исследования зависимости между ответом и признаками, однако результаты часто сомнительны, так как данные не всегда подходящие. Например, при большом количестве признаков часто многие из них сильно зависимы друг от друга, и эта зависимость уменьшает вероятность получения адекватных результатов. Belsley, Kuh и Welsch предложили метод анализа мультиколлинеарности основанный на индексах обусловленности(the scaled condition indexes) и дисперсионных долях(the variance-decomposition proportions).
Содержание[убрать] |
Анализ коллинеарности
Линейная регрессионная модель:
где - n-мерный ветор ответа(зависимой переменной),
- n x p (n>p) матрица признаков
- p-мерный вектор неизвестных коэффициентов,
- p-мерный вектор случайного возмущения с нулевым матожиданием и ковариационной матрицей
, где
это n x n единичная матрица, а
. Будем считать что
имеет ранг p.
Если есть коллинеарность между признаками согласно Belsley имеет смысл использовать сингулярное разложение(SVD) чтобы определить вовлеченные переменные. Матрица сингулярного разложения
определяется как:
Где - n x p ортогональная матрица,
- p x p верхняя диагональная матрица, чьи неотрицательные элементы являются сингулярными значениями
,
- p x p ортогональная матрица, чьи колонки это собственные вектора
. Если существует коллинеарная зависимоть, то
будут какие-либо сингулярные значения, скажем, (р - s), которые близки к нулю.
Предположим, что
, или просто
, элементы матрицы
упорядочены так, что
И рассмотрим разбиение
где
и
диогональные, и недиогональнык блоки нулевые.
, или просто
, содержит достаточно большие сингулярные значения, а
, или
, содержит близкие к нулю.
Теперь разделим
и
соответственно: