Фактор инфляции дисперсии
Материал из MachineLearning.
м (→Вычислительный эксперимент) |
м (→Ссылки) |
||
(4 промежуточные версии не показаны) | |||
Строка 23: | Строка 23: | ||
==Вычислительный эксперимент== | ==Вычислительный эксперимент== | ||
- | Мы использовали [http://www-stat.stanford.edu/~hastie/Papers/LARS/ реальные данные], на которых тестировался [[LARS]]. На них был проведен эксперимент по вычислению VIF для различных признаков. Код и данные размещены в [https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/ | + | Мы использовали [http://www-stat.stanford.edu/~hastie/Papers/LARS/ реальные данные], на которых тестировался [[LARS]]. На них был проведен эксперимент по вычислению VIF для различных признаков. Код и данные размещены в [https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/ZaitsevPavlov2009VIF/ репозитории Sourceforge]. Полученные результаты представлены в таблице. |
{| class="wikitable" style="text-align: center;" | {| class="wikitable" style="text-align: center;" | ||
Строка 51: | Строка 51: | ||
* [[Мультиколлинеарность]] | * [[Мультиколлинеарность]] | ||
+ | * [[Анализ мультиколлинеарности (пример)]] | ||
* [[Коэффициент детерминации]] | * [[Коэффициент детерминации]] | ||
Строка 57: | Строка 58: | ||
* [http://en.wikipedia.org/wiki/Variance_Inflation_Factor Wikipedia] | * [http://en.wikipedia.org/wiki/Variance_Inflation_Factor Wikipedia] | ||
* [http://www-stat.stanford.edu/~hastie/Papers/LARS/ Данные для вычислительного эксперимента] | * [http://www-stat.stanford.edu/~hastie/Papers/LARS/ Данные для вычислительного эксперимента] | ||
- | * [https:// | + | * [https://svn.code.sf.net/p/mlalgorithms/code/Group674/ZaitsevPavlov2009VIF/ Репозиторий] |
==Литература== | ==Литература== |
Текущая версия
В задаче восстановления регрессии фактор инфляции дисперсии (VIF) — мера мультиколлинеарности. Он позволяет оценить увеличение дисперсии заданного коэффициента регрессии, происходящее из-за высокой корреляции данных.
Содержание |
Определение
Пусть задана выборка откликов и признаков. Рассматривается множество линейных регрессионных моделей вида:
Предполагается, что вектор регрессионных невязок имеет нулевое математическое ожидание и дисперсию . В этом случае дисперсия :
Первая дробь связана с дисперсией невязок и дисперсией векторов признаков. Вторая — фактор инфляции дисперсии, связанный с корреляцей данного признака с другими:
где — коэффициент детерминации j-го признака относительно остальных:
Равенство единице фактора инфляции дисперсии говорит об ортогональности вектора значений признака остальным. Если значение велико, то — мало, то есть близко к 1. Большие значения фактора инфляции дисперсии соответствуют почти линейной зависимости j-го столбца от остальных.
Вычислительный эксперимент
Мы использовали реальные данные, на которых тестировался LARS. На них был проведен эксперимент по вычислению VIF для различных признаков. Код и данные размещены в репозитории Sourceforge. Полученные результаты представлены в таблице.
# | VIF | # | VIF |
---|---|---|---|
1 | 1.21 | 7 | 3.82 |
2 | 1.31 | 8 | 7.43 |
3 | 1.69 | 9 | 3.46 |
4 | 1.51 | 10 | 1.47 |
5 | 19.27 | 11 | 1.97 |
6 | 16.37 |
Мы видим, что у двух признаков значение фактора инфляции дисперсии больше 10, еще у одного больше 5. Такой результат — следствие их мультиколлинеарности относительно остальных признаков нашего набора.
Смотри также
Ссылки
Литература
1. Дрейпер Н., Смит Г. Прикладной регрессионный анализ. — Вильямс, 2007. — С. 487.