Значимость коэффициентов линейной регрессии
Материал из MachineLearning.
(Новая: Проверка статистической '''значимости коэффициентов линейной регрессии''' заключается в проверке [[Ну...) |
м (орфография) |
||
(2 промежуточные версии не показаны) | |||
Строка 1: | Строка 1: | ||
- | Проверка статистической '''значимости коэффициентов линейной регрессии''' заключается в проверке [[Нулевая гипотеза|гипотезы]] значимости или незначимости отличия оценок некоторых [[Многомерная линейная регрессия|регрессионных коэффициентов]] от нуля. Если в результате проверки оказывается, что отличие | + | Проверка статистической '''значимости коэффициентов линейной регрессии''' заключается в проверке [[Нулевая гипотеза|гипотезы]] значимости или незначимости отличия оценок некоторых [[Многомерная линейная регрессия|регрессионных коэффициентов]] от нуля. Если в результате проверки оказывается, что отличие оценок каких-то регрессионных коэффициентов от нуля не влияет на качество модели, то соответствующие [[Многомерная линейная регрессия|предикторные переменные]] можно исключить из [[Многомерная линейная регрессия|регрессионной модели]]. |
==Обозначения == | ==Обозначения == | ||
Строка 11: | Строка 11: | ||
*<tex> \hat{Y}= \left[ \hat{y}_1 \\ ...\\ \hat{y}_n\right] </tex> – зависимая переменная ([[Многомерная линейная регрессия|отклик]]) | *<tex> \hat{Y}= \left[ \hat{y}_1 \\ ...\\ \hat{y}_n\right] </tex> – зависимая переменная ([[Многомерная линейная регрессия|отклик]]) | ||
- | Модель линейной регрессии имеет вид: | + | Модель линейной регрессии имеет вид: {{eqno|1}} |
::<tex>\hat{Y} = \sum_{i=1}^k \theta_i \cdot X_i</tex> | ::<tex>\hat{Y} = \sum_{i=1}^k \theta_i \cdot X_i</tex> | ||
Строка 30: | Строка 30: | ||
== Анализ структкры модели == | == Анализ структкры модели == | ||
+ | Если для <tex>\hat{Y},X,\Theta</tex> выполнено {{eqref|1}}, то говорят, что соотношение {{eqref|1}} описывает "процесс, порождающий данные" или что {{eqref|1}} является "истинной моделью". Как правило, на практике истинная модель неизвестна, исследователь оценивает модель, которая лишь приближенно соответствует процессу, порождающему данные. Выбор регрессоров, которые присутствуют в модели назовём '''структурой модели'''. | ||
- | ''' | + | Возникает вопрос о соотношении между [[Метод наименьших квадратов|МНК-оценками]] параметров в истинной и выбранной моделях. Рассмотрим две ситуации: |
+ | *в оцениваемой модели отсутствет часть предикторных переменных, которые есть в истинной модели(''исключение существенных переменных''); | ||
+ | *в оцениваемой модели присутствуют предикторных переменные, которых нет в истинной модели(''включение несущественных переменных''). | ||
- | |||
- | Утверждение 1 | + | '''Утверждение 1''' ''(исключение существенных переменных):'' |
- | '' | + | ''Если [[Многомерная линейная регрессия|основные предположения многомерной линейной регрессии]] верны для <tex>X = (X^1 ,X^2)</tex>, но МНК-оценка <tex>\hat{\Theta^1}</tex> построена только по <tex>X^1</tex>, то <tex>\hat{\Theta} = \left[\hat{\Theta^1} \\ \0\right]</tex> - [[Несмещённая оценка|смещённая]] и [[Состоятельная оценка|несостоятельная]] оценка для <tex>\Theta</tex>.'' |
- | + | Утверждение 1 говорит о том, что если при построении модели регрессии мы недобрали предикторных переменных, то получим плохую МНК-оценку для параметров регрессии. | |
- | '' | + | '''Утверждение 2''' ''(включение несущественных переменных):'' |
+ | |||
+ | ''Если [[Многомерная линейная регрессия|основные предположения многомерной линейной регрессии]] верны для <tex>X^1</tex>, но [[Метод наименьших квадратов|МНК-оценка]] <tex>\hat{\Theta}</tex> построена по <tex>X</tex>, то <tex>\hat{\Theta}</tex> - [[Несмещённая оценка|несмещённая]] и [[Состоятельная оценка|состоятельная]] оценка для <tex>\Theta = \left[\Theta^1 \\ \0\right]</tex>.'' | ||
+ | ''При этом <tex>\textstyle \tr\; cov\; \hat{\Theta} > \tr\; cov \;\hat{\Theta^1} </tex>.'' | ||
- | В утверждении 2 говорится, что если в регрессионной модели присутствуют лишние | + | Здесь <tex>\tr\; cov\; \hat{\Theta}</tex> - след ковариционной матрицы оценок. |
+ | В утверждении 2 говорится, что если в регрессионной модели присутствуют лишние предикторные переменных, то возрастают дисперсии полученных МНК-оценок. | ||
Можно сделать вывод, что если не выполнять проверок на значимость предикторных переменных, то для получения хорошей МНК-оценки коэффициентов регрессии лучше взять предикторных переменных больше, нежели недобрать их. | Можно сделать вывод, что если не выполнять проверок на значимость предикторных переменных, то для получения хорошей МНК-оценки коэффициентов регрессии лучше взять предикторных переменных больше, нежели недобрать их. | ||
Строка 88: | Строка 94: | ||
[[Категория: Регрессионный анализ]] | [[Категория: Регрессионный анализ]] | ||
[[Категория: Энциклопедия анализа данных]] | [[Категория: Энциклопедия анализа данных]] | ||
- |
Текущая версия
Проверка статистической значимости коэффициентов линейной регрессии заключается в проверке гипотезы значимости или незначимости отличия оценок некоторых регрессионных коэффициентов от нуля. Если в результате проверки оказывается, что отличие оценок каких-то регрессионных коэффициентов от нуля не влияет на качество модели, то соответствующие предикторные переменные можно исключить из регрессионной модели.
Содержание |
Обозначения
Введем обозначения:
- - набор предикторных переменных
- - коэффициенты линейной регрессии.
- – зависимая переменная (отклик)
Пусть .Введём дополнительные обозначения:
Тогда .
Тогда .
Анализ структкры модели
Если для выполнено (1), то говорят, что соотношение (1) описывает "процесс, порождающий данные" или что (1) является "истинной моделью". Как правило, на практике истинная модель неизвестна, исследователь оценивает модель, которая лишь приближенно соответствует процессу, порождающему данные. Выбор регрессоров, которые присутствуют в модели назовём структурой модели.
Возникает вопрос о соотношении между МНК-оценками параметров в истинной и выбранной моделях. Рассмотрим две ситуации:
- в оцениваемой модели отсутствет часть предикторных переменных, которые есть в истинной модели(исключение существенных переменных);
- в оцениваемой модели присутствуют предикторных переменные, которых нет в истинной модели(включение несущественных переменных).
Утверждение 1 (исключение существенных переменных):
Если основные предположения многомерной линейной регрессии верны для , но МНК-оценка построена только по , то - смещённая и несостоятельная оценка для .
Утверждение 1 говорит о том, что если при построении модели регрессии мы недобрали предикторных переменных, то получим плохую МНК-оценку для параметров регрессии.
Утверждение 2 (включение несущественных переменных):
Если основные предположения многомерной линейной регрессии верны для , но МНК-оценка построена по , то - несмещённая и состоятельная оценка для .
При этом .
Здесь - след ковариционной матрицы оценок. В утверждении 2 говорится, что если в регрессионной модели присутствуют лишние предикторные переменных, то возрастают дисперсии полученных МНК-оценок.
Можно сделать вывод, что если не выполнять проверок на значимость предикторных переменных, то для получения хорошей МНК-оценки коэффициентов регрессии лучше взять предикторных переменных больше, нежели недобрать их.
Проверка значимости коэффициентов
Коэффициент линейной регрессии считается значимым, если его МНК-оценка отлична от нуля.
Опишем критерий Фишера проверки значимости коэффициентов линейной регрессии.
Нулевая гипотеза .
Нулевая гипотеза утверждает, что отклик не зависит от предикторных переменных .
Статистика критерия:
имеет имеет распределение Фишера с и степенями свободы. Тогда критической областью критерия является правый хвост распределения Фишера, что соотвествует альтернативной гипотезе .
Критерий (при уровне значимости ) против альтернативы :
- если , то нулевая гипотеза отвергается в пользу альтернативы ;
- если , то принимаем нулевую гипотезу ;
где есть -квантиль распределения Фишера с и степенями свободы.
Литература
- Магнус Я. Р., Катышев П. К., Пересецкий А. А. Эконометрика. Начальный курс. — М.: Дело, 2004. — 576 с. стр.124-132