Мультиколлинеарность
Материал из MachineLearning.
(Новая: '''Мультиколлинеарность''' - проблема, возникающая при оценке параметров регрессионной модели.) |
(→Смотри также) |
||
(11 промежуточных версий не показаны.) | |||
Строка 1: | Строка 1: | ||
- | '''Мультиколлинеарность''' - | + | '''Мультиколлинеарность''' - тесная корреляционная взаимосвязь между отбираемыми для анализа факторами, совместно воздействующими на общий результат, которая затрудняет оценивание регрессионных параметров. |
+ | |||
+ | == Основные положения == | ||
+ | Если регрессоры в модели связаны строгой функциональной зависимостью, то имеет место ''полная (совершенная) мультиколлинеарность''. Данный вид мультиколлинеарности может возникнуть, например, в задаче линейной регрессии, решаемой [[Метод наименьших квадратов|методом наименьших квадратов]], если определитель матрицы <tex>A^TA</tex> будет равен нулю. Полная мультиколлинеарность не позволяет однозначно оценить параметры исходной модели и разделить вклады регрессоров в выходную переменную по результатм наблюдений. | ||
+ | |||
+ | В задачах с реальными данными случай полной мультиколлинеарности встречается крайне редко. Вместо этого в прикладной области часто приходится иметь дело с ''частичной мультиколлинеарностью'', которая характеризуется коэффициентами парной корреляции между регрессорами. В случае частичной мультиколлинеарности матрица <tex>A^TA</tex> будет иметь полный ранг, но ее определитель будет близок к нулю. В этом случае формально можно получить оценки параметров модели и их точностные показатели, но все они будут неустойчивыми. | ||
+ | |||
+ | Среди последствий частичной мультиколлинеарности можно выделить следующие: | ||
+ | * увеличение дисперсий оценок параметров | ||
+ | * уменьшение значений t-статистик для параметров, что приводит к неправильному выводу об их статистической значимости | ||
+ | * получение неустойчивых оценок параметров модели и их дисперсий | ||
+ | * возможность получения неверного с точки зрения теории знака у оценки параметра | ||
+ | |||
+ | Точные количественные критерии для обнаружения частичной мультиколлинеарности отсутствуют. В качестве признаков ее наличия чаще всего используют следующие: | ||
+ | * Превышение некого порога модулем парного коэффициента корреляции между регрессорами <tex>X_i</tex> и <tex>X_j</tex> | ||
+ | * Близость к нулю определителя матрицы <tex>A^TA</tex> | ||
+ | * Большое количество статистически незначимых параметров в модели | ||
+ | |||
+ | == Методы устранения мультиколлинеарности == | ||
+ | Существует два основных подхода к решению этой задачи. | ||
+ | *'''Метод дополнительных регрессий''' | ||
+ | ** Строятся уравнения регрессии, которые связывают каждый из регрессоров со всеми остальными | ||
+ | ** Вычисляются [[Коэффициент детерминации|коэффициенты детерминации]] <tex>R^2</tex> для каждого уравнения регрессии | ||
+ | ** [[Проверка статистических гипотез|Проверяется статистическая гипотеза]] <tex>H_0:\ R^2=0</tex> с помощью F-теста | ||
+ | **: Вывод: если гипотеза <tex>H_0</tex> не отвергается, то данный регрессор не приводит к мультиколлинеарности. | ||
+ | |||
+ | *'''Метод последовательного присоединения''' | ||
+ | ** Строится регрессионная модель с учетом всех предполагаемых регрессоров. По признакам делается вывод о возможном присутствии мультиколлинеарности | ||
+ | ** Расчитывается матрица корреляций и выбирается регрессор, имеющий наибольшую корреляцию с выходной переменной | ||
+ | ** К выбранному регрессору последовательно добавляются каждый из оставшихся регрессоров и вычисляются скорректированные коэффициенты детерминации для каждой из моделей. К модели присоединяется тот регрессор, который обеспечивает наибольшее значение скорректированного <tex>R^2</tex> | ||
+ | **: Процесс присоединения регрессоров прекращается, когда значение скорректированного <tex>R^2</tex> становится меньше достигнутого на предыдущем шаге. | ||
+ | |||
+ | Каким бы образом не осуществлялся отбор факторов, уменьшение их числа приводит к улучшению обусловленности матрицы <tex>A^TA</tex>, а, следовательно, и к повышению качества оценок параметров модели. | ||
+ | |||
+ | ---- | ||
+ | |||
+ | Помимо перечисленных методов существует ещё один, более простой, дающий достаточно хорошие результаты — это '''метод предварительного центрирования'''. Суть метода сводится к тому, что перед нахождением параметров математической модели проводится центрирование исходных данных: из каждого значения в ряде данных вычитается среднее по ряду: <tex>Y'_t = Y_t - \bar{Y}</tex>. Эта процедура позволяет так развести гиперплоскости условий МНК, чтобы углы между ними были перпендикулярны. В результате этого оценки модели становятся устойчивыми ([http://sergey.svetunkov.ru/science/multicolinear.phtml Построение многофакторных моделей в условиях мультиколлинеарности]). | ||
+ | |||
+ | ==Литература== | ||
+ | # [http://www.faito.ru/ppt/mmep/kostunin/9.ppt ''Костюнин В. И.'' Проблема мультиколлинеарности в регрессионных моделях. Презентация PPT.] | ||
+ | # [http://sergey.svetunkov.ru/science/multicolinear.phtml ''Светуньков С.Г.'' Построение многофакторных моделей в условиях мультиколлинеарности.] | ||
+ | |||
+ | == Смотри также == | ||
+ | * [[Анализ мультиколлинеарности (пример)]] | ||
+ | * [[Ридж-регрессия]] | ||
+ | * [[Лассо]] | ||
+ | * [[LARS]] | ||
+ | * [[Регрессионный анализ]] | ||
+ | * [[Фактор инфляции дисперсии]] | ||
+ | * [[Метод Белсли]] | ||
+ | [[Категория:Линейная регрессия]] | ||
+ | [[Категория:Регрессионный анализ]] |
Текущая версия
Мультиколлинеарность - тесная корреляционная взаимосвязь между отбираемыми для анализа факторами, совместно воздействующими на общий результат, которая затрудняет оценивание регрессионных параметров.
Содержание |
Основные положения
Если регрессоры в модели связаны строгой функциональной зависимостью, то имеет место полная (совершенная) мультиколлинеарность. Данный вид мультиколлинеарности может возникнуть, например, в задаче линейной регрессии, решаемой методом наименьших квадратов, если определитель матрицы будет равен нулю. Полная мультиколлинеарность не позволяет однозначно оценить параметры исходной модели и разделить вклады регрессоров в выходную переменную по результатм наблюдений.
В задачах с реальными данными случай полной мультиколлинеарности встречается крайне редко. Вместо этого в прикладной области часто приходится иметь дело с частичной мультиколлинеарностью, которая характеризуется коэффициентами парной корреляции между регрессорами. В случае частичной мультиколлинеарности матрица будет иметь полный ранг, но ее определитель будет близок к нулю. В этом случае формально можно получить оценки параметров модели и их точностные показатели, но все они будут неустойчивыми.
Среди последствий частичной мультиколлинеарности можно выделить следующие:
- увеличение дисперсий оценок параметров
- уменьшение значений t-статистик для параметров, что приводит к неправильному выводу об их статистической значимости
- получение неустойчивых оценок параметров модели и их дисперсий
- возможность получения неверного с точки зрения теории знака у оценки параметра
Точные количественные критерии для обнаружения частичной мультиколлинеарности отсутствуют. В качестве признаков ее наличия чаще всего используют следующие:
- Превышение некого порога модулем парного коэффициента корреляции между регрессорами и
- Близость к нулю определителя матрицы
- Большое количество статистически незначимых параметров в модели
Методы устранения мультиколлинеарности
Существует два основных подхода к решению этой задачи.
- Метод дополнительных регрессий
- Строятся уравнения регрессии, которые связывают каждый из регрессоров со всеми остальными
- Вычисляются коэффициенты детерминации для каждого уравнения регрессии
- Проверяется статистическая гипотеза с помощью F-теста
- Вывод: если гипотеза не отвергается, то данный регрессор не приводит к мультиколлинеарности.
- Метод последовательного присоединения
- Строится регрессионная модель с учетом всех предполагаемых регрессоров. По признакам делается вывод о возможном присутствии мультиколлинеарности
- Расчитывается матрица корреляций и выбирается регрессор, имеющий наибольшую корреляцию с выходной переменной
- К выбранному регрессору последовательно добавляются каждый из оставшихся регрессоров и вычисляются скорректированные коэффициенты детерминации для каждой из моделей. К модели присоединяется тот регрессор, который обеспечивает наибольшее значение скорректированного
- Процесс присоединения регрессоров прекращается, когда значение скорректированного становится меньше достигнутого на предыдущем шаге.
Каким бы образом не осуществлялся отбор факторов, уменьшение их числа приводит к улучшению обусловленности матрицы , а, следовательно, и к повышению качества оценок параметров модели.
Помимо перечисленных методов существует ещё один, более простой, дающий достаточно хорошие результаты — это метод предварительного центрирования. Суть метода сводится к тому, что перед нахождением параметров математической модели проводится центрирование исходных данных: из каждого значения в ряде данных вычитается среднее по ряду: . Эта процедура позволяет так развести гиперплоскости условий МНК, чтобы углы между ними были перпендикулярны. В результате этого оценки модели становятся устойчивыми (Построение многофакторных моделей в условиях мультиколлинеарности).
Литература
- Костюнин В. И. Проблема мультиколлинеарности в регрессионных моделях. Презентация PPT.
- Светуньков С.Г. Построение многофакторных моделей в условиях мультиколлинеарности.