Мультиколлинеарность

Материал из MachineLearning.

Версия от 18:12, 26 апреля 2009; Strijov (Обсуждение | вклад)

(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)

Мультиколлинеарность - тесная корреляционная взаимосвязь между отбираемыми для анализа факторами, совместно воздействующими на общий результат, которая затрудняет оценивание регрессионных параметров.

Основные положения

Если регрессоры в модели связаны строгой функциональной зависимостью, то имеет место полная (совершенная) мультиколлинеарность. Данный вид мультиколлинеарности может возникнуть, например, в задаче линейной регрессии, решаемой методом наименьших квадратов, если определитель матрицы $A^TA$ будет равен нулю. Полная мультиколлинеарность не позволяет однозначно оценить параметры исходной модели и разделить вклады регрессоров в выходную переменную по результатм наблюдений.

В задачах с реальными данными случай полной мультиколлинеарности встречается крайне редко. Вместо этого в прикладной области часто приходится иметь дело с частичной мультиколлинеарностью, которая характеризуется коэффициентами парной корреляции между регрессорами. В случае частичной мультиколлинеарности матрица $A^TA$ будет иметь полный ранг, но ее определитель будет близок к нулю. В этом случае формально можно получить оценки параметров модели и их точностные показатели, но все они будут неустойчивыми.

Среди последствий частичной мультиколлинеарности можно выделить следующие:

увеличение дисперсий оценок параметров
уменьшение значений t-статистик для параметров, что приводит к неправильному выводу об их статистической значимости
получение неустойчивых оценок параметров модели и их дисперсий
возможность получения неверного с точки зрения теории знака у оценки параметра

Точные количественные критерии для обнаружения частичной мультиколлинеарности отсутствуют. В качестве признаков ее наличия чаще всего используют следующие:

Превышение некого порога модулем парного коэффициента корреляции между регрессорами $X_i$ и $X_j$
Близость к нулю определителя матрицы $A^TA$
Большое количество статистически незначимых параметров в модели

Методы устранения мультиколлинеарности

Существует два основных подхода к решению этой задачи.

Метод дополнительных регрессий
- Строятся уравнения регрессии, которые связывают каждый из регрессоров со всеми остальными
- Вычисляются коэффициенты детерминации $R^2$ для каждого уравнения регрессии
- Проверяется статистическая гипотеза $H_0:\ R^2=0$ с помощью F-теста
  Вывод: если гипотеза $H_0$ не отвергается, то данный регрессор не приводит к мультиколлинеарности.

Метод последовательного присоединения
- Строится регрессионная модель с учетом всех предполагаемых регрессоров. По признакам делается вывод о возможном присутствии мультиколлинеарности
- Расчитывается матрица корреляций и выбирается регрессор, имеющий наибольшую корреляцию с выходной переменной
- К выбранному регрессору последовательно добавляются каждый из оставшихся регрессоров и вычисляются скорректированные коэффициенты детерминации для каждой из моделей. К модели присоединяется тот регрессор, который обеспечивает наибольшее значение скорректированного $R^2$
  Процесс присоединения регрессоров прекращается, когда значение скорректированного $R^2$ становится меньше достигнутого на предыдущем шаге.

Каким бы образом не осуществлялся отбор факторов, уменьшение их числа приводит к улучшению обусловленности матрицы $A^TA$ , а, следовательно, и к повышению качества оценок параметров модели.