Мультиколлинеарность

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Смотри также)
 
(8 промежуточных версий не показаны.)
Строка 32: Строка 32:
Каким бы образом не осуществлялся отбор факторов, уменьшение их числа приводит к улучшению обусловленности матрицы <tex>A^TA</tex>, а, следовательно, и к повышению качества оценок параметров модели.
Каким бы образом не осуществлялся отбор факторов, уменьшение их числа приводит к улучшению обусловленности матрицы <tex>A^TA</tex>, а, следовательно, и к повышению качества оценок параметров модели.
 +
 +
----
 +
 +
Помимо перечисленных методов существует ещё один, более простой, дающий достаточно хорошие результаты — это '''метод предварительного центрирования'''. Суть метода сводится к тому, что перед нахождением параметров математической модели проводится центрирование исходных данных: из каждого значения в ряде данных вычитается среднее по ряду: <tex>Y'_t = Y_t - \bar{Y}</tex>. Эта процедура позволяет так развести гиперплоскости условий МНК, чтобы углы между ними были перпендикулярны. В результате этого оценки модели становятся устойчивыми ([http://sergey.svetunkov.ru/science/multicolinear.phtml Построение многофакторных моделей в условиях мультиколлинеарности]).
==Литература==
==Литература==
-
#''Костюнин В. И.'' Проблема мультиколлинеарности в регрессионных моделях.
+
# [http://www.faito.ru/ppt/mmep/kostunin/9.ppt ''Костюнин В. И.'' Проблема мультиколлинеарности в регрессионных моделях. Презентация PPT.]
 +
# [http://sergey.svetunkov.ru/science/multicolinear.phtml ''Светуньков С.Г.'' Построение многофакторных моделей в условиях мультиколлинеарности.]
== Смотри также ==
== Смотри также ==
 +
* [[Анализ мультиколлинеарности (пример)]]
* [[Ридж-регрессия]]
* [[Ридж-регрессия]]
* [[Лассо]]
* [[Лассо]]
* [[LARS]]
* [[LARS]]
* [[Регрессионный анализ]]
* [[Регрессионный анализ]]
-
 
+
* [[Фактор инфляции дисперсии]]
 +
* [[Метод Белсли]]
 +
[[Категория:Линейная регрессия]]
[[Категория:Регрессионный анализ]]
[[Категория:Регрессионный анализ]]

Текущая версия

Мультиколлинеарность - тесная корреляционная взаимосвязь между отбираемыми для анализа факторами, совместно воздействующими на общий результат, которая затрудняет оценивание регрессионных параметров.

Содержание

Основные положения

Если регрессоры в модели связаны строгой функциональной зависимостью, то имеет место полная (совершенная) мультиколлинеарность. Данный вид мультиколлинеарности может возникнуть, например, в задаче линейной регрессии, решаемой методом наименьших квадратов, если определитель матрицы A^TA будет равен нулю. Полная мультиколлинеарность не позволяет однозначно оценить параметры исходной модели и разделить вклады регрессоров в выходную переменную по результатм наблюдений.

В задачах с реальными данными случай полной мультиколлинеарности встречается крайне редко. Вместо этого в прикладной области часто приходится иметь дело с частичной мультиколлинеарностью, которая характеризуется коэффициентами парной корреляции между регрессорами. В случае частичной мультиколлинеарности матрица A^TA будет иметь полный ранг, но ее определитель будет близок к нулю. В этом случае формально можно получить оценки параметров модели и их точностные показатели, но все они будут неустойчивыми.

Среди последствий частичной мультиколлинеарности можно выделить следующие:

  • увеличение дисперсий оценок параметров
  • уменьшение значений t-статистик для параметров, что приводит к неправильному выводу об их статистической значимости
  • получение неустойчивых оценок параметров модели и их дисперсий
  • возможность получения неверного с точки зрения теории знака у оценки параметра

Точные количественные критерии для обнаружения частичной мультиколлинеарности отсутствуют. В качестве признаков ее наличия чаще всего используют следующие:

  • Превышение некого порога модулем парного коэффициента корреляции между регрессорами X_i и X_j
  • Близость к нулю определителя матрицы A^TA
  • Большое количество статистически незначимых параметров в модели

Методы устранения мультиколлинеарности

Существует два основных подхода к решению этой задачи.

  • Метод дополнительных регрессий
  • Метод последовательного присоединения
    • Строится регрессионная модель с учетом всех предполагаемых регрессоров. По признакам делается вывод о возможном присутствии мультиколлинеарности
    • Расчитывается матрица корреляций и выбирается регрессор, имеющий наибольшую корреляцию с выходной переменной
    • К выбранному регрессору последовательно добавляются каждый из оставшихся регрессоров и вычисляются скорректированные коэффициенты детерминации для каждой из моделей. К модели присоединяется тот регрессор, который обеспечивает наибольшее значение скорректированного R^2
      Процесс присоединения регрессоров прекращается, когда значение скорректированного R^2 становится меньше достигнутого на предыдущем шаге.

Каким бы образом не осуществлялся отбор факторов, уменьшение их числа приводит к улучшению обусловленности матрицы A^TA, а, следовательно, и к повышению качества оценок параметров модели.


Помимо перечисленных методов существует ещё один, более простой, дающий достаточно хорошие результаты — это метод предварительного центрирования. Суть метода сводится к тому, что перед нахождением параметров математической модели проводится центрирование исходных данных: из каждого значения в ряде данных вычитается среднее по ряду: Y'_t = Y_t - \bar{Y}. Эта процедура позволяет так развести гиперплоскости условий МНК, чтобы углы между ними были перпендикулярны. В результате этого оценки модели становятся устойчивыми (Построение многофакторных моделей в условиях мультиколлинеарности).

Литература

  1. Костюнин В. И. Проблема мультиколлинеарности в регрессионных моделях. Презентация PPT.
  2. Светуньков С.Г. Построение многофакторных моделей в условиях мультиколлинеарности.

Смотри также

Личные инструменты