Анализ мультиколлинеарности (пример)

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
м (Методика Belsley, Kuh, и Welsch (BKW))
м (Методика Belsley, Kuh, и Welsch (BKW))
Строка 26: Строка 26:
<tex>\mbox{var}({b}_{k})={\sigma}^{2} \sum_{j} {\frac{{\upsilon}^{2}_{kj}}{{\mu}^{2}_{j}}}</tex>
<tex>\mbox{var}({b}_{k})={\sigma}^{2} \sum_{j} {\frac{{\upsilon}^{2}_{kj}}{{\mu}^{2}_{j}}}</tex>
, <tex>V\equiv({\upsilon}_{ij})</tex>
, <tex>V\equiv({\upsilon}_{ij})</tex>
 +
{| class="wikitable" style="text-align: center;"
 +
|- bgcolor="#ccccc"
 +
! width=70 % |Condition index
 +
! width=50 % |<tex>var({b}_{l}) </tex>
 +
! width=50 % |<tex>var({b}_{2}) </tex>
 +
! width=100 % |<tex>... </tex>
 +
! width=50 % |<tex>var({b}_{p}) </tex>
 +
|-
 +
| '''<tex>{\eta}_{1}</tex>''' || <tex>{\pi}_{11}</tex> || '''<tex>{\pi}_{12}</tex>''' || '''...''' || <tex>{\pi}_{1p}</tex>
 +
|-
 +
| '''<tex>{\eta}_{2}</tex>''' || <tex>{\pi}_{11}</tex> || '''...''' || '''...''' || <tex>{\pi}_{2p}</tex>
 +
|-
 +
| '''.''' || '''.''' || '''.''' || || '''.'''
 +
|-
 +
| '''.''' || '''.''' || '''.''' || || '''.'''
 +
|-
 +
| '''.''' || '''.''' || '''.''' || || '''.'''
 +
|-
 +
| '''<tex>{\eta}_{p}</tex>''' || <tex>{\pi}_{p1}</tex> || <tex>{\pi}_{11}</tex> || '''...''' || <tex>{\pi}_{pp} </tex>
 +
|-
 +
|}
== Вычислительный эксперимент ==
== Вычислительный эксперимент ==

Версия 14:39, 9 мая 2010

Мультиколлинеарность — тесная корреляционная взаимосвязь между отбираемыми для анализа факторами, совместно воздействующими на общий результат, которая затрудняет оценивание регрессионных параметров.

Содержание

Постановка задачи

Задана выборка D = \{ y_i,\mathbf{x}_i\}_{i=1}^n откликов и признаков. Рассматривается множество линейных регрессионных моделей вида:

y_i=\sum_{j=1}^m w_j x_{ij} + \varepsilon_i, i=1,\dots,n Предполагается, что вектор регрессионных невязок имеет нулевое математическое ожидание и дисперсию \sigma^2. Требуется создать инструмент исследования мультиколлинеарности признаков (методики VIF, Belsley) и исследовать устойчивость модели на зависимость параметров модели от дисперсии случайной переменной и выбросов в выборке.

Описание алгоритма

Фактор инфляции дисперсии (VIF)

Дисперсия w_i:

D\hat{w}_j=\frac{\sigma^2}{(n-1)D x_j}\frac{1}{1-R_j^2}.

Первая дробь связана с дисперсией невязок и дисперсией векторов признаков. Вторая — фактор инфляции дисперсии, связанный с корреляцей данного признака с другими:

VIF_j=\frac{1}{1-R_j^2},

где R_j^2коэффициент детерминации j-го признака относительно остальных:

R_j^2 \equiv 1-{\sum_{i=1}^n (x_{ij} - \hat{x}_{ij})^2 \over \sum_{i=1}^n (x_{ij}-\bar{\mathbf{x}}_j)^2},\.

Равенство единице фактора инфляции дисперсии говорит об ортогональности вектора значений признака остальным. Если значение VIF_j велико, то 1-R^2_j — мало, то есть R_j^2 близко к 1. Большие значения фактора инфляции дисперсии соответствуют почти линейной зависимости j-го столбца от остальных.

Методика Belsley, Kuh, и Welsch (BKW)

Диагностика Коллинеарности BKW основана на двух элементах, относящихся к  n \times p матрице данных X использующейся в линейной регрессии  y = X \beta + \epsilon : the scaled condition indexes и the variance-decomposition proportions. Оба этих диагностических элемента могут быть получены из сингулярного разложения (SVD) матрицы X:  X=UD{V^{T}}, где {U}^{T}U={V}^{T}V={I}_{p} и D - диогональная с неотрицательными элементами {\mu}_{1},...,{\mu}_{p} называющимися сингулярными значениями X : {\eta}_{k}\equiv\frac{{\mu}_{max}}{{\mu}_{k}}, k=1,...,p \mbox{var}({b}_{k})={\sigma}^{2}	\sum_{j} {\frac{{\upsilon}^{2}_{kj}}{{\mu}^{2}_{j}}} , V\equiv({\upsilon}_{ij})

Condition index var({b}_{l}) var({b}_{2}) ... var({b}_{p})
{\eta}_{1} {\pi}_{11} {\pi}_{12} ... {\pi}_{1p}
{\eta}_{2} {\pi}_{11} ... ... {\pi}_{2p}
. . . .
. . . .
. . . .
{\eta}_{p} {\pi}_{p1} {\pi}_{11} ... {\pi}_{pp}

Вычислительный эксперимент

Исходный код

Смотри также

Литература

Данная статья является непроверенным учебным заданием.
Студент: Участник:Сунгуров Дмитрий
Преподаватель: Участник:В.В.Стрижов
Срок: 28 мая 2010

До указанного срока статья не должна редактироваться другими участниками проекта MachineLearning.ru. По его окончании любой участник вправе исправить данную статью по своему усмотрению и удалить данное предупреждение, выводимое с помощью шаблона {{Задание}}.

См. также методические указания по использованию Ресурса MachineLearning.ru в учебном процессе.

Личные инструменты