Анализ мультиколлинеарности (пример)
Материал из MachineLearning.
м (→Пример 1) |
м (→Исходный код) |
||
Строка 114: | Строка 114: | ||
== Исходный код == | == Исходный код == | ||
- | *Cкачать листинги алгоритмов можно здесь [https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/ | + | *Cкачать листинги алгоритмов можно здесь [https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Multicollinearity%20analysis//] |
== Смотри также == | == Смотри также == |
Версия 01:04, 29 сентября 2010
Мультиколлинеарность — тесная корреляционная взаимосвязь между отбираемыми для анализа факторами, совместно воздействующими на общий результат, которая затрудняет оценивание регрессионных параметров.
Содержание |
Постановка задачи
Задана выборка признаков и зависимой переменной. Рассматривается линейная регрессионная модель вида:
Предполагается, что вектор регрессионных невязок имеет нулевое математическое ожидание и дисперсию . Требуется создать инструмент исследования мультиколлинеарности признаков (методики VIF, Belsley) и исследовать устойчивость модели на зависимость параметров от дисперсии случайной переменной.
Описание алгоритма
Фактор инфляции дисперсии (VIF)
В задаче восстановления регрессии фактор инфляции дисперсии (VIF) — мера мультиколлинеарности. Он позволяет оценить увеличение дисперсии заданного коэффициента регрессии, происходящее из-за высокой корреляции данных. Дисперсия может быть выражена как:
Первая дробь связана с дисперсией невязок и дисперсией векторов признаков. Вторая — фактор инфляции дисперсии, связанный с корреляцей данного признака с другими:
где — коэффициент детерминации j-го признака относительно остальных - фактически он содержит информацию о том, насколько точно можно построить регрессию для j-го признака относительно остальных, т.е его зависимость от них.
Равенство единице фактора инфляции дисперсии говорит об ортогональности вектора значений признака остальным. Если значение велико, то — мало, то есть близко к 1. Большие значения фактора инфляции дисперсии соответствуют почти линейной зависимости j-го столбца от остальных.
Методика Belsley, Kuh, и Welsch (BKW)
Диагностика коллинеарности BKW основана на двух элементах, относящихся к матрице данных использующейся в линейной регрессии : индексы обусловленности(the scaled condition indexes) и дисперсионные доли(the variance-decomposition proportions). Оба этих диагностических элемента могут быть получены из сингулярного разложения (SVD) матрицы : , где и - диагональная с неотрицательными элементами называющимися сингулярными числами . Индексы обусловленности это:
,
для всех . Большое значение указывает на зависимость близкую к линейной между признаками и чем больше тем сильнее зависимость. Дисперсионные доли находятся из того факта, что используя SVD ковариационная матрица метода наименьших квадратов может записана как:
где это дисперсия возмущения . Таким образом дисперсия -го регрессионного коэффициента это -й диогональный элемент (3):
где - сингулярные значения и .
Определим -е дисперсионное соотношение как долю дисперсии -го регрессионного коэффициента связанная с -м компонентом его разложения (4). Доля считается как:
,
,
Дисперсионное соотношение:
,
Данные удобно представить в виде таблицы:
Condition index | ||||
---|---|---|---|---|
... | ||||
... | ... | |||
. | . | . | . | |
. | . | . | . | |
. | . | . | . | |
... |
Перед использованием BKW необходимо отмасштабировать матрицу . Стандартно применяется приведение столбцов к одинаковой длинне(норму). Будем рассматривать отмасштабированные индексы обусловленности :
,
Алгоритм BKW
1. Стандартизация столбцов матрицы.
2. Вычисление индексов обусловленности и дисперсионных долей.
3. Определение количества зависимостей.
Превышение индексом обусловленности выбраного заранее порога означает наличие зависимости между признаками.
Относительная сила зависимости определяется положение значения индекса обусловленности в прогресии 1, 3, 10, 30, 100, 300, 1000 итд.
4. Определение признаков участвующих в зависимости.
2 случая :
1) Только один достаточно большой индекс обусловленности - тогда возможно определение участвующих в зависимости признаков из дисперсионных долей: признак считается вовлеченным если его дисперсионная доля связанная с этим индексом превышает выбранный порог (обычно 0.25).
2) Есть несколько больших индексов обусловленности. В этом случае вовлеченность признака в зависимость определяется по сумме его дисперсионных долей отвечающих большим значениям индекса обусловленности - когда сумма превышает порог признак участвует как минимум в одной линейной зависимости.
Вычислительный эксперимент
В эксперименте используются модельные данные, для которых вычисляется VIF и матрица Belsley в зависимоти от параметра определяющего степень коллинеарности между признаками. Зависимость VIF и индексов обусловленности показана на графиках. Остальная часть таблицы BKW раскрашивалась (от темно-синего для 0 к темно-красному для 1) и создавалось видео показывающее ее изменение при параметре от 0 до 1.
Пример 1
Используются 2 ортогональных признака , и третий зависящий от параметра . При параметре равном 0 все признаки ортогональны, при его увеличении приближается к , вплоть до полной коллинеарности при .
Зависимость VIF от параметра:
Как видно из графика VIF и растет вплоть до бесконечности при , VIF при этом не изменен и равен 1.
Зависимость индексов обусловленности от :
Таблица дисперсионных долей:
Видно что и связаны усиляющейся зависимостью, и что других связей нет.
Пример 2
Используется неизменный признак и зависящие от параметра , , . При параметре равном 0 все признаки ортогональны, при его увеличении , , одновременно начинают приближаться к вплоть до полной коллинеарности при .
Зависимость VIF от параметра:
Зависимость индексов обусловленности от :
Таблица дисперсионных долей:
Наблюдаются 3 зависимости - в самой сильной участвуют все 4 признака, во второй и , и в самой слабой и .
Пример 3
Используется неизменные признаки , и зависящие от параметра ,,. ПРи параметре равном 0 все признаки ортогональны, при его увеличении , приближаются к , - к вплоть до полной коллинеарности при .
Зависимость VIF от параметра:
Зависимость индексов обусловленности от :
Таблица дисперсионных долей:
Наблюдается 2 основных зависимости - между , , и вторая между , .
Исходный код
- Cкачать листинги алгоритмов можно здесь [1]
Смотри также
- Фактор инфляции дисперсии
- Мультиколлинеарность
- Метод наименьших квадратов
- Линейная регрессия (пример)
- Сингулярное разложение
- Методика Belsley
Литература
- Gianfranco Galmacci, Collinearity Detection in Linear Regression. Computational Economics 9:215-227, 1996.
- D. A. Belsley, A Guide to Using the Collinearity Diagnostics. Computer Science in Economics and Management 4: 33-50, 1991.
Данная статья является непроверенным учебным заданием.
До указанного срока статья не должна редактироваться другими участниками проекта MachineLearning.ru. По его окончании любой участник вправе исправить данную статью по своему усмотрению и удалить данное предупреждение, выводимое с помощью шаблона {{Задание}}. См. также методические указания по использованию Ресурса MachineLearning.ru в учебном процессе. |