Мультиколлинеарность

Материал из MachineLearning.

(Различия между версиями)

Текущая версия

Мультиколлинеарность - тесная корреляционная взаимосвязь между отбираемыми для анализа факторами, совместно воздействующими на общий результат, которая затрудняет оценивание регрессионных параметров.

Содержание

1 Основные положения
2 Методы устранения мультиколлинеарности
3 Литература
4 Смотри также

Основные положения

Если регрессоры в модели связаны строгой функциональной зависимостью, то имеет место полная (совершенная) мультиколлинеарность. Данный вид мультиколлинеарности может возникнуть, например, в задаче линейной регрессии, решаемой методом наименьших квадратов, если определитель матрицы $A^TA$ будет равен нулю. Полная мультиколлинеарность не позволяет однозначно оценить параметры исходной модели и разделить вклады регрессоров в выходную переменную по результатм наблюдений.

В задачах с реальными данными случай полной мультиколлинеарности встречается крайне редко. Вместо этого в прикладной области часто приходится иметь дело с частичной мультиколлинеарностью, которая характеризуется коэффициентами парной корреляции между регрессорами. В случае частичной мультиколлинеарности матрица $A^TA$ будет иметь полный ранг, но ее определитель будет близок к нулю. В этом случае формально можно получить оценки параметров модели и их точностные показатели, но все они будут неустойчивыми.

Среди последствий частичной мультиколлинеарности можно выделить следующие:

увеличение дисперсий оценок параметров
уменьшение значений t-статистик для параметров, что приводит к неправильному выводу об их статистической значимости
получение неустойчивых оценок параметров модели и их дисперсий
возможность получения неверного с точки зрения теории знака у оценки параметра

Точные количественные критерии для обнаружения частичной мультиколлинеарности отсутствуют. В качестве признаков ее наличия чаще всего используют следующие:

Превышение некого порога модулем парного коэффициента корреляции между регрессорами $X_i$ и $X_j$
Близость к нулю определителя матрицы $A^TA$
Большое количество статистически незначимых параметров в модели

Методы устранения мультиколлинеарности

Существует два основных подхода к решению этой задачи.

Метод дополнительных регрессий
- Строятся уравнения регрессии, которые связывают каждый из регрессоров со всеми остальными
- Вычисляются коэффициенты детерминации $R^2$ для каждого уравнения регрессии
- Проверяется статистическая гипотеза $H_0:\ R^2=0$ с помощью F-теста
  Вывод: если гипотеза $H_0$ не отвергается, то данный регрессор не приводит к мультиколлинеарности.

Метод последовательного присоединения
- Строится регрессионная модель с учетом всех предполагаемых регрессоров. По признакам делается вывод о возможном присутствии мультиколлинеарности
- Расчитывается матрица корреляций и выбирается регрессор, имеющий наибольшую корреляцию с выходной переменной
- К выбранному регрессору последовательно добавляются каждый из оставшихся регрессоров и вычисляются скорректированные коэффициенты детерминации для каждой из моделей. К модели присоединяется тот регрессор, который обеспечивает наибольшее значение скорректированного $R^2$
  Процесс присоединения регрессоров прекращается, когда значение скорректированного $R^2$ становится меньше достигнутого на предыдущем шаге.

Каким бы образом не осуществлялся отбор факторов, уменьшение их числа приводит к улучшению обусловленности матрицы $A^TA$ , а, следовательно, и к повышению качества оценок параметров модели.

Помимо перечисленных методов существует ещё один, более простой, дающий достаточно хорошие результаты — это метод предварительного центрирования. Суть метода сводится к тому, что перед нахождением параметров математической модели проводится центрирование исходных данных: из каждого значения в ряде данных вычитается среднее по ряду: $Y'_t = Y_t - \bar{Y}$ . Эта процедура позволяет так развести гиперплоскости условий МНК, чтобы углы между ними были перпендикулярны. В результате этого оценки модели становятся устойчивыми (Построение многофакторных моделей в условиях мультиколлинеарности).

Литература

Смотри также

Источник — «http://machinelearning.ru/wiki/index.php?title=%D0%9C%D1%83%D0%BB%D1%8C%D1%82%D0%B8%D0%BA%D0%BE%D0%BB%D0%BB%D0%B8%D0%BD%D0%B5%D0%B0%D1%80%D0%BD%D0%BE%D1%81%D1%82%D1%8C»

Категории: Линейная регрессия | Регрессионный анализ

@@ Строка 1: / Строка 1: @@
-'''Мультиколлинеарность''' - проблема, возникающая при оценке параметров регрессионной модели.
+'''Мультиколлинеарность''' - тесная корреляционная взаимосвязь между отбираемыми для анализа факторами, совместно воздействующими на общий результат, которая затрудняет оценивание регрессионных параметров.
+== Основные положения ==
+Если регрессоры в модели связаны строгой функциональной зависимостью, то имеет место ''полная (совершенная) мультиколлинеарность''. Данный вид мультиколлинеарности может возникнуть, например, в задаче линейной регрессии, решаемой [[Метод наименьших квадратов|методом наименьших квадратов]], если определитель матрицы <tex>A^TA</tex> будет равен нулю. Полная мультиколлинеарность не позволяет однозначно оценить параметры исходной модели и разделить вклады регрессоров в выходную переменную по результатм наблюдений.
+В задачах с реальными данными случай полной мультиколлинеарности встречается крайне редко. Вместо этого в прикладной области часто приходится иметь дело с ''частичной мультиколлинеарностью'', которая характеризуется коэффициентами парной корреляции между регрессорами. В случае частичной мультиколлинеарности матрица <tex>A^TA</tex> будет иметь полный ранг, но ее определитель будет близок к нулю. В этом случае формально можно получить оценки параметров модели и их точностные показатели, но все они будут неустойчивыми.
+Среди последствий частичной мультиколлинеарности можно выделить следующие:
+* увеличение дисперсий оценок параметров
+* уменьшение значений t-статистик для параметров, что приводит к неправильному выводу об их статистической значимости
+* получение неустойчивых оценок параметров модели и их дисперсий
+* возможность получения неверного с точки зрения теории знака у оценки параметра
+Точные количественные критерии для обнаружения частичной мультиколлинеарности отсутствуют. В качестве признаков ее наличия чаще всего используют следующие:
+* Превышение некого порога модулем парного коэффициента корреляции между регрессорами <tex>X_i</tex> и <tex>X_j</tex>
+* Близость к нулю определителя матрицы <tex>A^TA</tex>
+* Большое количество статистически незначимых параметров в модели
+== Методы устранения мультиколлинеарности ==
+Существует два основных подхода к решению этой задачи.
+*'''Метод дополнительных регрессий'''
+** Строятся уравнения регрессии, которые связывают каждый из регрессоров со всеми остальными
+** Вычисляются [[Коэффициент детерминации|коэффициенты детерминации]] <tex>R^2</tex> для каждого уравнения регрессии
+** [[Проверка статистических гипотез|Проверяется статистическая гипотеза]] <tex>H_0:\ R^2=0</tex> с помощью F-теста
+**: Вывод: если гипотеза <tex>H_0</tex> не отвергается, то данный регрессор не приводит к мультиколлинеарности.
+*'''Метод последовательного присоединения'''
+** Строится регрессионная модель с учетом всех предполагаемых регрессоров. По признакам делается вывод о возможном присутствии мультиколлинеарности
+** Расчитывается матрица корреляций и выбирается регрессор, имеющий наибольшую корреляцию с выходной переменной
+** К выбранному регрессору последовательно добавляются каждый из оставшихся регрессоров и вычисляются скорректированные коэффициенты детерминации для каждой из моделей. К модели присоединяется тот регрессор, который обеспечивает наибольшее значение скорректированного <tex>R^2</tex>
+**: Процесс присоединения регрессоров прекращается, когда значение скорректированного <tex>R^2</tex> становится меньше достигнутого на предыдущем шаге.
+Каким бы образом не осуществлялся отбор факторов, уменьшение их числа приводит к улучшению обусловленности матрицы <tex>A^TA</tex>, а, следовательно, и к повышению качества оценок параметров модели.
+----
+Помимо перечисленных методов существует ещё один, более простой, дающий достаточно хорошие результаты — это '''метод предварительного центрирования'''. Суть метода сводится к тому, что перед нахождением параметров математической модели проводится центрирование исходных данных: из каждого значения в ряде данных вычитается среднее по ряду: <tex>Y'_t = Y_t - \bar{Y}</tex>. Эта процедура позволяет так развести гиперплоскости условий МНК, чтобы углы между ними были перпендикулярны. В результате этого оценки модели становятся устойчивыми ([http://sergey.svetunkov.ru/science/multicolinear.phtml Построение многофакторных моделей в условиях мультиколлинеарности]).
+==Литература==
+# [http://www.faito.ru/ppt/mmep/kostunin/9.ppt ''Костюнин В. И.'' Проблема мультиколлинеарности в регрессионных моделях. Презентация PPT.]
+# [http://sergey.svetunkov.ru/science/multicolinear.phtml ''Светуньков С.Г.'' Построение многофакторных моделей в условиях мультиколлинеарности.]
+== Смотри также ==
+* [[Анализ мультиколлинеарности (пример)]]
+* [[Ридж-регрессия]]
+* [[Лассо]]
+* [[LARS]]
+* [[Регрессионный анализ]]
+* [[Фактор инфляции дисперсии]]
+* [[Метод Белсли]]
+[[Категория:Линейная регрессия]]
+[[Категория:Регрессионный анализ]]

Мультиколлинеарность

Материал из MachineLearning.

Текущая версия

Содержание

Основные положения

Методы устранения мультиколлинеарности

Литература

Смотри также

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты