Анализ мультиколлинеарности (пример)
Материал из MachineLearning.
м |
м (→Методика Belsley, Kuh, и Welsch (BKW)) |
||
Строка 27: | Строка 27: | ||
где <tex>{\sigma}^{2}</tex> это дисперсия возмущения <tex>\varepsilon</tex>. Таким образом дисперсия k-го регрессионного коэффициента <tex>{b}_{k}</tex> это k-й диогональный элемент (3): <br /> | где <tex>{\sigma}^{2}</tex> это дисперсия возмущения <tex>\varepsilon</tex>. Таким образом дисперсия k-го регрессионного коэффициента <tex>{b}_{k}</tex> это k-й диогональный элемент (3): <br /> | ||
- | <tex>\mbox{var}({b}_{k})={\sigma}^{2} \sum_{j} {\frac{{\upsilon}^{2}_{kj}}{{\mu}^{2}_{j}}}</tex><br /> | + | <tex>\mbox{var}({b}_{k})={\sigma}^{2} \sum_{j} {\frac{{\upsilon}^{2}_{kj}}{{\mu}^{2}_{j}}}</tex> (4)<br /> |
- | + | где <tex>{\mu}_{j}</tex> - сингулярные значения <tex>X</tex> и <tex>V\equiv({\upsilon}_{ij})</tex>. | |
+ | Определим <tex>k, j</tex>-е дисперсионное соотношение как долю дисперсии k-го регрессионного коэффициента связанная с j-м компонентом его разложения (4). Доля считается как:<br/> | ||
+ | <tex>{\phi}_{kj}\equiv\frac{{\upsilon}^{2}_{kj}}{{\mu}^{2}_{j}}</tex>, | ||
+ | <tex>{\phi}_{k}\equiv\sum^{p}_{j=1} {\phi}_{kj}</tex>, <tex>k=1,...,p</tex><br/> | ||
+ | Дисперсионное соотношение: <br/> | ||
+ | <tex>{\pi}_{jk}\equiv\frac{{\phi}_{kj}}{{\phi}_{k}}</tex>, <tex>k,j=1,...,p</tex> <br/> | ||
+ | Данные удобно представить в виде таблицы: | ||
+ | <tex>X=[{X}_{1}\cdot\cdot\cdot{X}_{p}]<tex>, <tex>{s}_{i}\equiv{({X}^{T}_{i}{X}_{i})}^{-1/2}</tex>, <tex>S\equiv \mbox{diag}({s}_{1},...,{s}_{p})</tex>, | ||
+ | <tex>\stackrel{\sim}{\eta}\equiv {\eta}_{i}(XS)</tex>, <tex>i=1,...,p</tex> | ||
{| class="wikitable" style="text-align: center;" | {| class="wikitable" style="text-align: center;" | ||
|- bgcolor="#ccccc" | |- bgcolor="#ccccc" | ||
Строка 50: | Строка 58: | ||
|- | |- | ||
|} | |} | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
<tex>X=[{X}_{1}\cdot\cdot\cdot{X}_{p}]<tex>, <tex>{s}_{i}\equiv{({X}^{T}_{i}{X}_{i})}^{-1/2}</tex>, <tex>S\equiv \mbox{diag}({s}_{1},...,{s}_{p})</tex>, | <tex>X=[{X}_{1}\cdot\cdot\cdot{X}_{p}]<tex>, <tex>{s}_{i}\equiv{({X}^{T}_{i}{X}_{i})}^{-1/2}</tex>, <tex>S\equiv \mbox{diag}({s}_{1},...,{s}_{p})</tex>, | ||
<tex>\stackrel{\sim}{\eta}\equiv {\eta}_{i}(XS)</tex>, <tex>i=1,...,p</tex> | <tex>\stackrel{\sim}{\eta}\equiv {\eta}_{i}(XS)</tex>, <tex>i=1,...,p</tex> |
Версия 12:03, 7 июня 2010
Мультиколлинеарность — тесная корреляционная взаимосвязь между отбираемыми для анализа факторами, совместно воздействующими на общий результат, которая затрудняет оценивание регрессионных параметров.
Содержание |
Постановка задачи
Задана выборка откликов и признаков. Рассматривается множество линейных регрессионных моделей вида:
Предполагается, что вектор регрессионных невязок имеет нулевое математическое ожидание и дисперсию
.
Требуется создать инструмент исследования мультиколлинеарности признаков (методики VIF, Belsley) и исследовать устойчивость модели на зависимость параметров модели от дисперсии случайной переменной и выбросов в выборке.
Описание алгоритма
Фактор инфляции дисперсии (VIF)
Дисперсия :
Первая дробь связана с дисперсией невязок и дисперсией векторов признаков. Вторая — фактор инфляции дисперсии, связанный с корреляцей данного признака с другими:
где — коэффициент детерминации j-го признака относительно остальных:
Равенство единице фактора инфляции дисперсии говорит об ортогональности вектора значений признака остальным. Если значение велико, то
— мало, то есть
близко к 1. Большие значения фактора инфляции дисперсии соответствуют почти линейной зависимости j-го столбца от остальных.
Методика Belsley, Kuh, и Welsch (BKW)
Диагностика Коллинеарности BKW основана на двух элементах, относящихся к матрице данных
использующейся в линейной регрессии
: индексы состояния(the scaled condition indexes) и the variance-decomposition proportions. Оба этих диагностических элемента могут быть получены из сингулярного разложения (SVD) матрицы
:
, где
и
- диогональная с неотрицательными элементами
называющимися сингулярными значениями
. Индексы состояния это:
,
для всех
. Большое значение
указывает на зависимость близкую к линейной между признаками и чем больше
тем сильнее зависимость. Дисперсионные соотношения разложения проистекают из того факта, что используя SVD ковариационная матрица метода наименьших квадратов
может записана как:
(3)
где это дисперсия возмущения
. Таким образом дисперсия k-го регрессионного коэффициента
это k-й диогональный элемент (3):
(4)
где - сингулярные значения
и
.
Определим
-е дисперсионное соотношение как долю дисперсии k-го регрессионного коэффициента связанная с j-м компонентом его разложения (4). Доля считается как:
,
,
Дисперсионное соотношение:
,
Данные удобно представить в виде таблицы:
,
,
,
Condition index | ||||
---|---|---|---|---|
| | | ... | |
| | ... | ... | |
. | . | . | . | |
. | . | . | . | |
. | . | . | . | |
| | | ... | |
,
,
,
Вычислительный эксперимент
Исходный код
Смотри также
Литература
![]() | Данная статья является непроверенным учебным заданием.
До указанного срока статья не должна редактироваться другими участниками проекта MachineLearning.ru. По его окончании любой участник вправе исправить данную статью по своему усмотрению и удалить данное предупреждение, выводимое с помощью шаблона {{Задание}}. См. также методические указания по использованию Ресурса MachineLearning.ru в учебном процессе. |