Значимость коэффициентов линейной регрессии

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Анализ структкры модели)
Текущая версия (16:43, 28 декабря 2009) (править) (отменить)
м (орфография)
 
Строка 1: Строка 1:
-
Проверка статистической '''значимости коэффициентов линейной регрессии''' заключается в проверке [[Нулевая гипотеза|гипотезы]] значимости или незначимости отличия оценок некоторых [[Многомерная линейная регрессия|регрессионных коэффициентов]] от нуля. Если в результате проверки оказывается, что отличие оценок каких-то регрессионных коэффициентов от нуля не влияет на качество модели, то соответствующие [[Многомерная линейная регрессия|предикторные переменные]] можно искличить из [[Многомерная линейная регрессия|регрессионной модели]].
+
Проверка статистической '''значимости коэффициентов линейной регрессии''' заключается в проверке [[Нулевая гипотеза|гипотезы]] значимости или незначимости отличия оценок некоторых [[Многомерная линейная регрессия|регрессионных коэффициентов]] от нуля. Если в результате проверки оказывается, что отличие оценок каких-то регрессионных коэффициентов от нуля не влияет на качество модели, то соответствующие [[Многомерная линейная регрессия|предикторные переменные]] можно исключить из [[Многомерная линейная регрессия|регрессионной модели]].
==Обозначения ==
==Обозначения ==

Текущая версия

Проверка статистической значимости коэффициентов линейной регрессии заключается в проверке гипотезы значимости или незначимости отличия оценок некоторых регрессионных коэффициентов от нуля. Если в результате проверки оказывается, что отличие оценок каких-то регрессионных коэффициентов от нуля не влияет на качество модели, то соответствующие предикторные переменные можно исключить из регрессионной модели.

Содержание

Обозначения

Введем обозначения:

  •  X_i= \left[ x_{i1} \\ ...\\ x_{in}  \right] , i = 1,\dots,k - набор k предикторных переменных


  •   \Theta= \left[\theta_1 \\ ...\\\theta_k  \right] - коэффициенты линейной регрессии.


  •  \hat{Y}= \left[ \hat{y}_1 \\ ...\\ \hat{y}_n\right] – зависимая переменная (отклик)
Модель линейной регрессии имеет вид:
(1)
\hat{Y} = \sum_{i=1}^k \theta_i \cdot X_i

Пусть k = k_1+k_2.Введём дополнительные обозначения:


  • X = \(X_1,\dots,X_k\) ,\;\; X^1 = (X_1,\dots, X_{k_1}), \;\; X^2 = (X_{k_1+1},\dots, X_k)

Тогда X = (X^1 ,X^2).


  •   \Theta^1= \left[\theta_1 \\ ...\\\theta_{k1} \right],\;\; \Theta^2= \left[\theta_{k1+1} \\ ...\\\theta_k  \right]


Тогда \Theta = \left[\Theta^1 \\ \Theta^2\right].

Анализ структкры модели

Если для \hat{Y},X,\Theta выполнено (1), то говорят, что соотношение (1) описывает "процесс, порождающий данные" или что (1) является "истинной моделью". Как правило, на практике истинная модель неизвестна, исследователь оценивает модель, которая лишь приближенно соответствует процессу, порождающему данные. Выбор регрессоров, которые присутствуют в модели назовём структурой модели.

Возникает вопрос о соотношении между МНК-оценками параметров в истинной и выбранной моделях. Рассмотрим две ситуации:

  • в оцениваемой модели отсутствет часть предикторных переменных, которые есть в истинной модели(исключение существенных переменных);
  • в оцениваемой модели присутствуют предикторных переменные, которых нет в истинной модели(включение несущественных переменных).


Утверждение 1 (исключение существенных переменных):

Если основные предположения многомерной линейной регрессии верны для X = (X^1 ,X^2), но МНК-оценка \hat{\Theta^1} построена только по X^1, то \hat{\Theta} = \left[\hat{\Theta^1} \\ \0\right] - смещённая и несостоятельная оценка для \Theta.

Утверждение 1 говорит о том, что если при построении модели регрессии мы недобрали предикторных переменных, то получим плохую МНК-оценку для параметров регрессии.

Утверждение 2 (включение несущественных переменных):

Если основные предположения многомерной линейной регрессии верны для X^1, но МНК-оценка \hat{\Theta} построена по X, то \hat{\Theta} - несмещённая и состоятельная оценка для \Theta = \left[\Theta^1 \\ \0\right].

При этом \textstyle \tr\; cov\; \hat{\Theta} > \tr\; cov \;\hat{\Theta^1} .

Здесь \tr\; cov\; \hat{\Theta} - след ковариционной матрицы оценок. В утверждении 2 говорится, что если в регрессионной модели присутствуют лишние предикторные переменных, то возрастают дисперсии полученных МНК-оценок.

Можно сделать вывод, что если не выполнять проверок на значимость предикторных переменных, то для получения хорошей МНК-оценки коэффициентов регрессии лучше взять предикторных переменных больше, нежели недобрать их.

Проверка значимости коэффициентов

Коэффициент линейной регрессии считается значимым, если его МНК-оценка отлична от нуля.

Опишем критерий Фишера проверки значимости коэффициентов линейной регрессии.

Нулевая гипотеза H_0:\; \Theta^2 = 0.

Нулевая гипотеза утверждает, что отклик Y не зависит от предикторных переменных X^2.

Статистика критерия:

F = \frac{\frac{1}{k - k_1} \| X\cdot\hat{\Theta} - X^1 \cdot \hat{\Theta^1}\|^2}{\frac{1}{n-k}\|Y - X\cdot\hat{\Theta}\|^2}

имеет имеет распределение Фишера с k-k_1 и n-k степенями свободы. Тогда критической областью критерия является правый хвост распределения Фишера, что соотвествует альтернативной гипотезе H_1.

Критерий (при уровне значимости \alpha) против альтернативы H_1:\; \Theta^2 \neq 0:

  • если F>F_{1-\alpha}(k-k_1,n-k), то нулевая гипотеза H_0 отвергается в пользу альтернативы H_1;
  • если F<=F_{1-\alpha}(k-k_1,n-k), то принимаем нулевую гипотезу H_0;

где F_{\alpha}(n-1,m-1) есть \alpha-квантиль распределения Фишера с n-1 и m-1 степенями свободы.

Литература

  1. Магнус Я. Р., Катышев П. К., Пересецкий А. А. Эконометрика. Начальный курс. — М.: Дело, 2004. — 576 с. стр.124-132

См. также

Ссылки

Личные инструменты