Анализ мультиколлинеарности (пример)

Материал из MachineLearning.

(Различия между версиями)

Версия 09:38, 9 мая 2010

Мультиколлинеарность — тесная корреляционная взаимосвязь между отбираемыми для анализа факторами, совместно воздействующими на общий результат, которая затрудняет оценивание регрессионных параметров.

Содержание

1 Постановка задачи
2 Описание алгоритма
- 2.1 Фактор инфляции дисперсии (VIF)
- 2.2 Методика Belsley, Kuh, и Welsch (BKW)
3 Вычислительный эксперимент
4 Исходный код
5 Смотри также
6 Литература

Постановка задачи

Задана выборка $D = \{ y_i,\mathbf{x}_i\}_{i=1}^n$ откликов и признаков. Рассматривается множество линейных регрессионных моделей вида:

$y_i=\sum_{j=1}^m w_j x_{ij} + \varepsilon_i, i=1,\dots,n$ Предполагается, что вектор регрессионных невязок имеет нулевое математическое ожидание и дисперсию $\sigma^2$ . Требуется создать инструмент исследования мультиколлинеарности признаков (методики VIF, Belsley) и исследовать устойчивость модели на зависимость параметров модели от дисперсии случайной переменной и выбросов в выборке.

Описание алгоритма

Фактор инфляции дисперсии (VIF)

Дисперсия $w_i$ :

$D\hat{w}_j=\frac{\sigma^2}{(n-1)D x_j}\frac{1}{1-R_j^2}.$

Первая дробь связана с дисперсией невязок и дисперсией векторов признаков. Вторая — фактор инфляции дисперсии, связанный с корреляцей данного признака с другими:

$VIF_j=\frac{1}{1-R_j^2},$

где $R_j^2$ — коэффициент детерминации j-го признака относительно остальных:

$R_j^2 \equiv 1-{\sum_{i=1}^n (x_{ij} - \hat{x}_{ij})^2 \over \sum_{i=1}^n (x_{ij}-\bar{\mathbf{x}}_j)^2},\.$

Равенство единице фактора инфляции дисперсии говорит об ортогональности вектора значений признака остальным. Если значение $VIF_j$ велико, то $1-R^2_j$ — мало, то есть $R_j^2$ близко к 1. Большие значения фактора инфляции дисперсии соответствуют почти линейной зависимости j-го столбца от остальных.

Методика Belsley, Kuh, и Welsch (BKW)

Диагностика Коллинеарности BKW основана на двух элементах, относящихся к $n \times p$ матрице данных $X$ использующейся в линейной регрессии $y = X \beta + \epsilon$ : the scaled condition indexes и the variance-decomposition proportions. Оба этих диагностических элемента могут быть получены из сингулярного разложения (SVD) матрицы $X$ : $X=UD{V^{T}}$ , где ${U}^{T}U={V}^{T}V={I}_{p}$ и $D$ - диогональная с неотрицательными элементами ${\mu}_{1},...,{\mu}_{p}$ называющимися сингулярными значениями $X$ : ${\eta}_{k}\equiv\frac{{\mu}_{max}}{{\mu}_{k}}$ , $k=1,...,p$

Вычислительный эксперимент

Исходный код

Смотри также

Литература

Данная статья является непроверенным учебным заданием.

Студент: Участник:Сунгуров Дмитрий

Преподаватель: Участник:В.В.Стрижов

Срок: 28 мая 2010

До указанного срока статья не должна редактироваться другими участниками проекта MachineLearning.ru. По его окончании любой участник вправе исправить данную статью по своему усмотрению и удалить данное предупреждение, выводимое с помощью шаблона {{Задание}}.

См. также методические указания по использованию Ресурса MachineLearning.ru в учебном процессе.

Источник — «http://machinelearning.ru/wiki/index.php?title=%D0%90%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D0%BC%D1%83%D0%BB%D1%8C%D1%82%D0%B8%D0%BA%D0%BE%D0%BB%D0%BB%D0%B8%D0%BD%D0%B5%D0%B0%D1%80%D0%BD%D0%BE%D1%81%D1%82%D0%B8_%28%D0%BF%D1%80%D0%B8%D0%BC%D0%B5%D1%80%29»

Категории: Непроверенные учебные задания | Учебные материалы | Линейная регрессия

@@ Строка 22: / Строка 22: @@
 Равенство единице фактора инфляции дисперсии говорит об ортогональности вектора значений признака остальным. Если значение <tex>VIF_j</tex> велико, то <tex>1-R^2_j</tex> — мало, то есть <tex>R_j^2</tex> близко к 1. Большие значения фактора инфляции дисперсии соответствуют почти линейной зависимости j-го столбца от остальных.
 === Методика Belsley, Kuh, и Welsch (BKW) ===
-Диагностика Коллинеарности BKW основана на двух элементах, относящихся к <tex> n \times p</tex> матрице данных <tex>X </tex> использующейся в линейной регрессии <tex> y = X \beta + \epsilon</tex> : the scaled condition indexes и the  variance-decomposition proportions. Оба этих диагностических элемента могут быть получены из сингулярного разложения (SVD) матрицы <tex>X</tex>: <tex> X=UD{V^{T}}</tex>, где <tex>{U}^{T}U={V}^{T}V={I}_{p}</tex> и <tex>D</tex> - диогональная с неотрицательными элементами <tex>{\mu}_{1},...,{\mu}_{p}</tex> называющимися сингулярными значениями <tex>X</tex>
+Диагностика Коллинеарности BKW основана на двух элементах, относящихся к <tex> n \times p</tex> матрице данных <tex>X </tex> использующейся в линейной регрессии <tex> y = X \beta + \epsilon</tex> : the scaled condition indexes и the  variance-decomposition proportions. Оба этих диагностических элемента могут быть получены из сингулярного разложения (SVD) матрицы <tex>X</tex>: <tex> X=UD{V^{T}}</tex>, где <tex>{U}^{T}U={V}^{T}V={I}_{p}</tex> и <tex>D</tex> - диогональная с неотрицательными элементами <tex>{\mu}_{1},...,{\mu}_{p}</tex> называющимися сингулярными значениями <tex>X</tex> :
 <tex>{\eta}_{k}\equiv\frac{{\mu}_{max}}{{\mu}_{k}}</tex>, <tex>k=1,...,p</tex>