Значимость коэффициентов линейной регрессии

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Новая: Проверка статистической '''значимости коэффициентов линейной регрессии''' заключается в проверке [[Ну...)
Строка 1: Строка 1:
-
Проверка статистической '''значимости коэффициентов линейной регрессии''' заключается в проверке [[Нулевая гипотеза|гипотезы]] значимости или незначимости отличия оценок некоторых [[Многомерная линейная регрессия|регрессионных коэффициентов]] от нуля. Если в результате проверки оказывается, что отличие оценки каких-то регрессионных коэффициентов от нуля не влияет на качество модели, то соответствующие [[Многомерная линейная регрессия|предикторные переменные]] можно искличить из [[Многомерная линейная регрессия|регрессионной модели]].
+
Проверка статистической '''значимости коэффициентов линейной регрессии''' заключается в проверке [[Нулевая гипотеза|гипотезы]] значимости или незначимости отличия оценок некоторых [[Многомерная линейная регрессия|регрессионных коэффициентов]] от нуля. Если в результате проверки оказывается, что отличие оценок каких-то регрессионных коэффициентов от нуля не влияет на качество модели, то соответствующие [[Многомерная линейная регрессия|предикторные переменные]] можно искличить из [[Многомерная линейная регрессия|регрессионной модели]].
==Обозначения ==
==Обозначения ==
Строка 11: Строка 11:
*<tex> \hat{Y}= \left[ \hat{y}_1 \\ ...\\ \hat{y}_n\right] </tex> – зависимая переменная ([[Многомерная линейная регрессия|отклик]])
*<tex> \hat{Y}= \left[ \hat{y}_1 \\ ...\\ \hat{y}_n\right] </tex> – зависимая переменная ([[Многомерная линейная регрессия|отклик]])
-
Модель линейной регрессии имеет вид:
+
Модель линейной регрессии имеет вид: {{eqno|1}}
::<tex>\hat{Y} = \sum_{i=1}^k \theta_i \cdot X_i</tex>
::<tex>\hat{Y} = \sum_{i=1}^k \theta_i \cdot X_i</tex>
Строка 30: Строка 30:
== Анализ структкры модели ==
== Анализ структкры модели ==
 +
Если для <tex>Y,X,\Theta</tex> выполнено {{eqref|1}}, то говорят, что соотношение {{eqref|1}} описывает "процесс, порождающий данные" или что {{eqref|1}} является "истинной моделью". Как правило, на практике истинная модель неизвестна, исследователь оценивает модель, которая лишь приближенно соответствует процессу, порождающему данные. Выбор регрессоров, которые присутствуют в модели назовём '''структурой модели'''.
-
'''Утверждение 1:'''
+
Возникает вопрос о соотношении между [[Метод наименьших квадратов|МНК-оценками]] параметров в истинной и выбранной моделях. Рассмотрим две ситуации:
 +
*в оцениваемой модели отсутствет часть предикторных переменных, которые есть в истинной модели(''исключение существенных переменных'');
 +
*в оцениваемой модели присутствуют предикторных переменные, которых нет в истинной модели(''включение несущественных переменных'').
-
''Если [[Многомерная линейная регрессия|основные предположения многомерной линейной регрессии]] верны для <tex>X = (X^1 ,X^2)</tex>, но [[Метод наименьших квадратов|МНК-оценка]] <tex>\hat{\Theta^1}</tex> построена только по <tex>X^1</tex>, то <tex>\hat{\Theta} = \left[\hat{\Theta^1} \\ \0\right]</tex> - [[Несмещённая оценка|смещённая]] и [[Состоятельная оценка|несостоятельная]] оценка для <tex>\theta</tex>.''
 
-
Утверждение 1 говорит о том, что если при построении модели регрессии мы недобрали признаков(предикторных переменных), то получим плохую МНК-оценку для параметров регрессии.
+
'''Утверждение 1''' ''(исключение существенных переменных):''
-
'''Утверждение 2:'''
+
''Если [[Многомерная линейная регрессия|основные предположения многомерной линейной регрессии]] верны для <tex>X = (X^1 ,X^2)</tex>, но МНК-оценка <tex>\hat{\Theta^1}</tex> построена только по <tex>X^1</tex>, то <tex>\hat{\Theta} = \left[\hat{\Theta^1} \\ \0\right]</tex> - [[Несмещённая оценка|смещённая]] и [[Состоятельная оценка|несостоятельная]] оценка для <tex>\theta</tex>.''
-
''Если [[Многомерная линейная регрессия|основные предположения многомерной линейной регрессии]] верны для <tex>X^1</tex>, но [[Метод наименьших квадратов|МНК-оценка]] <tex>\hat{\Theta}</tex> построена по <tex>X</tex>, то <tex>\hat{\Theta}</tex> - [[Несмещённая оценка|несмещённая]] и [[Состоятельная оценка|состоятельная]] оценка для <tex>\Theta = \left[\Theta^1 \\ \0\right]</tex>.''
+
Утверждение 1 говорит о том, что если при построении модели регрессии мы недобрали предикторных переменных, то получим плохую МНК-оценку для параметров регрессии.
-
''При этом <tex> \tr\; cov\; \hat{\Theta} > \tr\; cov \;\hat{\Theta^1} </tex>.''
+
'''Утверждение 2''' ''(включение несущественных переменных):''
 +
 
 +
''Если [[Многомерная линейная регрессия|основные предположения многомерной линейной регрессии]] верны для <tex>X^1</tex>, но [[Метод наименьших квадратов|МНК-оценка]] <tex>\hat{\Theta}</tex> построена по <tex>X</tex>, то <tex>\hat{\Theta}</tex> - [[Несмещённая оценка|несмещённая]] и [[Состоятельная оценка|состоятельная]] оценка для <tex>\Theta = \left[\Theta^1 \\ \0\right]</tex>.''
 +
''При этом <tex>\textstyle \tr\; cov\; \hat{\Theta} > \tr\; cov \;\hat{\Theta^1} </tex>.''
-
В утверждении 2 говорится, что если в регрессионной модели присутствуют лишние признаки, то возрастают дисперсии полученных МНК-оценок.
+
Здесь <tex>\tr\; cov\; \hat{\Theta}</tex> - след ковариционной матрицы оценок.
 +
В утверждении 2 говорится, что если в регрессионной модели присутствуют лишние предикторных переменных, то возрастают дисперсии полученных МНК-оценок.
Можно сделать вывод, что если не выполнять проверок на значимость предикторных переменных, то для получения хорошей МНК-оценки коэффициентов регрессии лучше взять предикторных переменных больше, нежели недобрать их.
Можно сделать вывод, что если не выполнять проверок на значимость предикторных переменных, то для получения хорошей МНК-оценки коэффициентов регрессии лучше взять предикторных переменных больше, нежели недобрать их.
Строка 88: Строка 94:
[[Категория: Регрессионный анализ]]
[[Категория: Регрессионный анализ]]
[[Категория: Энциклопедия анализа данных]]
[[Категория: Энциклопедия анализа данных]]
-
{{UnderConstruction|[[Участник:Валентина Федорова|Валентина Федорова]] 20:15, 23 января 2009 (MSK)}}{{Stub|}}
 

Версия 18:29, 23 января 2009

Проверка статистической значимости коэффициентов линейной регрессии заключается в проверке гипотезы значимости или незначимости отличия оценок некоторых регрессионных коэффициентов от нуля. Если в результате проверки оказывается, что отличие оценок каких-то регрессионных коэффициентов от нуля не влияет на качество модели, то соответствующие предикторные переменные можно искличить из регрессионной модели.

Содержание

Обозначения

Введем обозначения:

  •  X_i= \left[ x_{i1} \\ ...\\ x_{in}  \right] , i = 1,\dots,k - набор k предикторных переменных


  •   \Theta= \left[\theta_1 \\ ...\\\theta_k  \right] - коэффициенты линейной регрессии.


  •  \hat{Y}= \left[ \hat{y}_1 \\ ...\\ \hat{y}_n\right] – зависимая переменная (отклик)
Модель линейной регрессии имеет вид:
(1)
\hat{Y} = \sum_{i=1}^k \theta_i \cdot X_i

Пусть k = k_1+k_2.Введём дополнительные обозначения:


  • X = \(X_1,\dots,X_k\) ,\;\; X^1 = (X_1,\dots, X_{k_1}), \;\; X^2 = (X_{k_1+1},\dots, X_k)

Тогда X = (X^1 ,X^2).


  •   \Theta^1= \left[\theta_1 \\ ...\\\theta_{k1} \right],\;\; \Theta^2= \left[\theta_{k1+1} \\ ...\\\theta_k  \right]


Тогда \Theta = \left[\Theta^1 \\ \Theta^2\right].

Анализ структкры модели

Если для Y,X,\Theta выполнено (1), то говорят, что соотношение (1) описывает "процесс, порождающий данные" или что (1) является "истинной моделью". Как правило, на практике истинная модель неизвестна, исследователь оценивает модель, которая лишь приближенно соответствует процессу, порождающему данные. Выбор регрессоров, которые присутствуют в модели назовём структурой модели.

Возникает вопрос о соотношении между МНК-оценками параметров в истинной и выбранной моделях. Рассмотрим две ситуации:

  • в оцениваемой модели отсутствет часть предикторных переменных, которые есть в истинной модели(исключение существенных переменных);
  • в оцениваемой модели присутствуют предикторных переменные, которых нет в истинной модели(включение несущественных переменных).


Утверждение 1 (исключение существенных переменных):

Если основные предположения многомерной линейной регрессии верны для X = (X^1 ,X^2), но МНК-оценка \hat{\Theta^1} построена только по X^1, то \hat{\Theta} = \left[\hat{\Theta^1} \\ \0\right] - смещённая и несостоятельная оценка для \theta.

Утверждение 1 говорит о том, что если при построении модели регрессии мы недобрали предикторных переменных, то получим плохую МНК-оценку для параметров регрессии.

Утверждение 2 (включение несущественных переменных):

Если основные предположения многомерной линейной регрессии верны для X^1, но МНК-оценка \hat{\Theta} построена по X, то \hat{\Theta} - несмещённая и состоятельная оценка для \Theta = \left[\Theta^1 \\ \0\right].

При этом \textstyle \tr\; cov\; \hat{\Theta} > \tr\; cov \;\hat{\Theta^1} .

Здесь \tr\; cov\; \hat{\Theta} - след ковариционной матрицы оценок. В утверждении 2 говорится, что если в регрессионной модели присутствуют лишние предикторных переменных, то возрастают дисперсии полученных МНК-оценок.

Можно сделать вывод, что если не выполнять проверок на значимость предикторных переменных, то для получения хорошей МНК-оценки коэффициентов регрессии лучше взять предикторных переменных больше, нежели недобрать их.

Проверка значимости коэффициентов

Коэффициент линейной регрессии считается значимым, если его МНК-оценка отлична от нуля.

Опишем критерий Фишера проверки значимости коэффициентов линейной регрессии.

Нулевая гипотеза H_0:\; \Theta^2 = 0.

Нулевая гипотеза утверждает, что отклик Y не зависит от предикторных переменных X^2.

Статистика критерия:

F = \frac{\frac{1}{k - k_1} \| X\cdot\hat{\Theta} - X^1 \cdot \hat{\Theta^1}\|^2}{\frac{1}{n-k}\|Y - X\cdot\hat{\Theta}\|^2}

имеет имеет распределение Фишера с k-k_1 и n-k степенями свободы. Тогда критической областью критерия является правый хвост распределения Фишера, что соотвествует альтернативной гипотезе H_1.

Критерий (при уровне значимости \alpha) против альтернативы H_1:\; \Theta^2 \neq 0:

  • если F>F_{1-\alpha}(k-k_1,n-k), то нулевая гипотеза H_0 отвергается в пользу альтернативы H_1;
  • если F<=F_{1-\alpha}(k-k_1,n-k), то принимаем нулевую гипотезу H_0;

где F_{\alpha}(n-1,m-1) есть \alpha-квантиль распределения Фишера с n-1 и m-1 степенями свободы.

Литература

  1. Магнус Я. Р., Катышев П. К., Пересецкий А. А. Эконометрика. Начальный курс. — М.: Дело, 2004. — 576 с. стр.124-132

См. также

Ссылки

Личные инструменты