Анализ мультиколлинеарности (пример)
Материал из MachineLearning.
м (→Методика Belsley, Kuh, и Welsch (BKW)) |
м (→Методика Belsley, Kuh, и Welsch (BKW)) |
||
Строка 23: | Строка 23: | ||
Равенство единице фактора инфляции дисперсии говорит об ортогональности вектора значений признака остальным. Если значение <tex>VIF_j</tex> велико, то <tex>1-R^2_j</tex> — мало, то есть <tex>R_j^2</tex> близко к 1. Большие значения фактора инфляции дисперсии соответствуют почти линейной зависимости j-го столбца от остальных. | Равенство единице фактора инфляции дисперсии говорит об ортогональности вектора значений признака остальным. Если значение <tex>VIF_j</tex> велико, то <tex>1-R^2_j</tex> — мало, то есть <tex>R_j^2</tex> близко к 1. Большие значения фактора инфляции дисперсии соответствуют почти линейной зависимости j-го столбца от остальных. | ||
=== [[Методика Belsley|Методика Belsley, Kuh, и Welsch (BKW) ]]=== | === [[Методика Belsley|Методика Belsley, Kuh, и Welsch (BKW) ]]=== | ||
- | Диагностика Коллинеарности BKW основана на двух элементах, относящихся к <tex> n \times p</tex> матрице данных <tex>X </tex> использующейся в линейной регрессии <tex> y = X \beta + \ | + | Диагностика Коллинеарности BKW основана на двух элементах, относящихся к <tex> n \times p</tex> матрице данных <tex>X </tex> использующейся в линейной регрессии <tex> y = X \beta + \varepsilon</tex> : индексы обусловленности(the scaled condition indexes) и дисперсионные доли(the variance-decomposition proportions). Оба этих диагностических элемента могут быть получены из сингулярного разложения (SVD) матрицы <tex>X</tex>: <tex> X=UD{V^{T}}</tex>, где <tex>{U}^{T}U={V}^{T}V={I}_{p}</tex> и <tex>D</tex> - диагональная с неотрицательными элементами <tex>{\mu}_{1},...,{\mu}_{p}</tex> называющимися сингулярными числами <tex>X</tex>. Индексы обусловленности это:<br /> |
<tex>{\eta}_{k}\equiv\frac{{\mu}_{max}}{{\mu}_{k}}</tex>, <tex>k=1,...,p</tex> <br /> | <tex>{\eta}_{k}\equiv\frac{{\mu}_{max}}{{\mu}_{k}}</tex>, <tex>k=1,...,p</tex> <br /> | ||
<tex>{\eta}_{k} \geq 0 </tex> для всех <tex>k</tex>. Большое значение <tex>{\eta}_{k}</tex> указывает на зависимость близкую к линейной между признаками и чем больше <tex>{\eta}_{k}</tex> тем сильнее зависимость. Дисперсионные доли находятся из того факта, что используя SVD ковариационная матрица метода наименьших квадратов <tex> b=(X^{T}X)^{-1}X^{T}y</tex> может записана как:<br /> <tex> V(b)={\sigma}^{2}(X^{T}X)^{-1} = {\sigma}^{2}V D^{-2} V^{T}</tex> (3)<br /> | <tex>{\eta}_{k} \geq 0 </tex> для всех <tex>k</tex>. Большое значение <tex>{\eta}_{k}</tex> указывает на зависимость близкую к линейной между признаками и чем больше <tex>{\eta}_{k}</tex> тем сильнее зависимость. Дисперсионные доли находятся из того факта, что используя SVD ковариационная матрица метода наименьших квадратов <tex> b=(X^{T}X)^{-1}X^{T}y</tex> может записана как:<br /> <tex> V(b)={\sigma}^{2}(X^{T}X)^{-1} = {\sigma}^{2}V D^{-2} V^{T}</tex> (3)<br /> | ||
- | где <tex>{\sigma}^{2}</tex> это дисперсия возмущения <tex>\varepsilon</tex>. Таким образом дисперсия k-го регрессионного коэффициента <tex>{b}_{k}</tex> это k-й диогональный элемент (3): <br /> | + | где <tex>{\sigma}^{2}</tex> это дисперсия возмущения <tex>\varepsilon</tex>. Таким образом дисперсия <tex>k</tex>-го регрессионного коэффициента <tex>{b}_{k}</tex> это <tex>k</tex>-й диогональный элемент (3): <br /> |
<tex>\mbox{var}({b}_{k})={\sigma}^{2} \sum_{j} {\frac{{\upsilon}^{2}_{kj}}{{\mu}^{2}_{j}}}</tex> (4)<br /> | <tex>\mbox{var}({b}_{k})={\sigma}^{2} \sum_{j} {\frac{{\upsilon}^{2}_{kj}}{{\mu}^{2}_{j}}}</tex> (4)<br /> | ||
где <tex>{\mu}_{j}</tex> - сингулярные значения <tex>X</tex> и <tex>V\equiv({\upsilon}_{ij})</tex>. | где <tex>{\mu}_{j}</tex> - сингулярные значения <tex>X</tex> и <tex>V\equiv({\upsilon}_{ij})</tex>. | ||
- | Определим <tex>k, j</tex>-е дисперсионное соотношение как долю дисперсии k-го регрессионного коэффициента связанная с j-м компонентом его разложения (4). Доля считается как:<br/> | + | Определим <tex>k, j</tex>-е дисперсионное соотношение как долю дисперсии <tex>k</tex>-го регрессионного коэффициента связанная с <tex>j</tex>-м компонентом его разложения (4). Доля считается как:<br/> |
<tex>{\phi}_{kj}\equiv\frac{{\upsilon}^{2}_{kj}}{{\mu}^{2}_{j}}</tex>, | <tex>{\phi}_{kj}\equiv\frac{{\upsilon}^{2}_{kj}}{{\mu}^{2}_{j}}</tex>, | ||
<tex>{\phi}_{k}\equiv\sum^{p}_{j=1} {\phi}_{kj}</tex>, <tex>k=1,...,p</tex><br/> | <tex>{\phi}_{k}\equiv\sum^{p}_{j=1} {\phi}_{kj}</tex>, <tex>k=1,...,p</tex><br/> |
Версия 14:29, 2 июля 2010
Мультиколлинеарность — тесная корреляционная взаимосвязь между отбираемыми для анализа факторами, совместно воздействующими на общий результат, которая затрудняет оценивание регрессионных параметров.
Содержание |
Постановка задачи
Задана выборка признаков и зависимой переменной. Рассматривается линейная регрессионная модель вида:
Предполагается, что вектор регрессионных невязок имеет нулевое математическое ожидание и дисперсию . Требуется создать инструмент исследования мультиколлинеарности признаков (методики VIF, Belsley) и исследовать устойчивость модели на зависимость параметров от дисперсии случайной переменной.
Описание алгоритма
Фактор инфляции дисперсии (VIF)
Дисперсия :
Первая дробь связана с дисперсией невязок и дисперсией векторов признаков. Вторая — фактор инфляции дисперсии, связанный с корреляцей данного признака с другими:
где — коэффициент детерминации j-го признака относительно остальных:
Равенство единице фактора инфляции дисперсии говорит об ортогональности вектора значений признака остальным. Если значение велико, то — мало, то есть близко к 1. Большие значения фактора инфляции дисперсии соответствуют почти линейной зависимости j-го столбца от остальных.
Методика Belsley, Kuh, и Welsch (BKW)
Диагностика Коллинеарности BKW основана на двух элементах, относящихся к матрице данных использующейся в линейной регрессии : индексы обусловленности(the scaled condition indexes) и дисперсионные доли(the variance-decomposition proportions). Оба этих диагностических элемента могут быть получены из сингулярного разложения (SVD) матрицы : , где и - диагональная с неотрицательными элементами называющимися сингулярными числами . Индексы обусловленности это:
,
для всех . Большое значение указывает на зависимость близкую к линейной между признаками и чем больше тем сильнее зависимость. Дисперсионные доли находятся из того факта, что используя SVD ковариационная матрица метода наименьших квадратов может записана как:
(3)
где это дисперсия возмущения . Таким образом дисперсия -го регрессионного коэффициента это -й диогональный элемент (3):
(4)
где - сингулярные значения и .
Определим -е дисперсионное соотношение как долю дисперсии -го регрессионного коэффициента связанная с -м компонентом его разложения (4). Доля считается как:
,
,
Дисперсионное соотношение:
,
Данные удобно представить в виде таблицы:
Condition index | ||||
---|---|---|---|---|
... | ||||
... | ... | |||
. | . | . | . | |
. | . | . | . | |
. | . | . | . | |
... |
Перед использованием BKW необходимо отмасштабировать матрицу . Стандартно применяется приведение столбцов к одинаковой длинне(норму). Будем рассматривать отмасштабированные индексы обусловленности :
,
Алгоритм BKW
1. Стандартизация столбцов матрицы.
2. Вычисление индексов обусловленности и дисперсионных долей.
3. Определение количества зависимостей.
Превышение индексом обусловленности выбраного заранее порога означает наличие зависимости между признаками.
Относительная сила зависимости определяется положение значения индекса обусловленности в прогресии 1, 3, 10, 30, 100, 300, 1000 итд.
4. Определение признаков участвующих в зависимости.
2 случая :
1) Только 1 достаточно большой индекс обусловленности - тогда возможно определение участвующих в зависимости признаков из дисперсионных долей: признак считается вовлеченным если его дисперсионная доля связанная с этим индексом превышает выбранный порог (обычно 0.25).
2) Есть несколько больших индексов обусловленности. В этом случае вовлеченность признака в зависимость определяется по сумме его дисперсионных долей отвечающих большим значениям индекса обусловленности - когда сумма превышает порог признак участвует как минимум в одной линейной зависимости.
Вычислительный эксперимент
Эксперимент проводится на модельных данных.
Исходный код
- Cкачать листинги алгоритмов можно здесь [1]
Смотри также
- Фактор инфляции дисперсии
- Мультиколлинеарность
- Метод наименьших квадратов
- Линейная регрессия (пример)
- Сингулярное разложение
Литература
- Gianfranco Galmacci, Collinearity Detection in Linear Regression. M: 1996 Kluwer Academic Publishers.
- D. A. BELSLEY, A Guide to Using the Collinearity Diagnostics. M: 1991 Kluwer Academic Publishers.
- К. В. Воронцов, Лекции по линейным алгоритмам классификации и регрессии
Данная статья является непроверенным учебным заданием.
До указанного срока статья не должна редактироваться другими участниками проекта MachineLearning.ru. По его окончании любой участник вправе исправить данную статью по своему усмотрению и удалить данное предупреждение, выводимое с помощью шаблона {{Задание}}. См. также методические указания по использованию Ресурса MachineLearning.ru в учебном процессе. |