Значимость коэффициентов линейной регрессии

Материал из MachineLearning.

Версия от 17:15, 23 января 2009; Валентина Федорова (Обсуждение | вклад)
(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)
Перейти к: навигация, поиск

Проверка статистической значимости коэффициентов линейной регрессии заключается в проверке гипотезы значимости или незначимости отличия оценок некоторых регрессионных коэффициентов от нуля. Если в результате проверки оказывается, что отличие оценки каких-то регрессионных коэффициентов от нуля не влияет на качество модели, то соответствующие предикторные переменные можно искличить из регрессионной модели.

Содержание

Обозначения

Введем обозначения:

  •  X_i= \left[ x_{i1} \\ ...\\ x_{in}  \right] , i = 1,\dots,k - набор k предикторных переменных


  •   \Theta= \left[\theta_1 \\ ...\\\theta_k  \right] - коэффициенты линейной регрессии.


  •  \hat{Y}= \left[ \hat{y}_1 \\ ...\\ \hat{y}_n\right] – зависимая переменная (отклик)

Модель линейной регрессии имеет вид:

\hat{Y} = \sum_{i=1}^k \theta_i \cdot X_i

Пусть k = k_1+k_2.Введём дополнительные обозначения:


  • X = \(X_1,\dots,X_k\) ,\;\; X^1 = (X_1,\dots, X_{k_1}), \;\; X^2 = (X_{k_1+1},\dots, X_k)

Тогда X = (X^1 ,X^2).


  •   \Theta^1= \left[\theta_1 \\ ...\\\theta_{k1} \right],\;\; \Theta^2= \left[\theta_{k1+1} \\ ...\\\theta_k  \right]


Тогда \Theta = \left[\Theta^1 \\ \Theta^2\right].

Анализ структкры модели

Утверждение 1:

Если основные предположения многомерной линейной регрессии верны для X = (X^1 ,X^2), но МНК-оценка \hat{\Theta^1} построена только по X^1, то \hat{\Theta} = \left[\hat{\Theta^1} \\ \0\right] - смещённая и несостоятельная оценка для \theta.

Утверждение 1 говорит о том, что если при построении модели регрессии мы недобрали признаков(предикторных переменных), то получим плохую МНК-оценку для параметров регрессии.

Утверждение 2:

Если основные предположения многомерной линейной регрессии верны для X^1, но МНК-оценка \hat{\Theta} построена по X, то \hat{\Theta} - несмещённая и состоятельная оценка для \Theta = \left[\Theta^1 \\ \0\right].

При этом  \tr\; cov\; \hat{\Theta} > \tr\; cov \;\hat{\Theta^1} .


В утверждении 2 говорится, что если в регрессионной модели присутствуют лишние признаки, то возрастают дисперсии полученных МНК-оценок.

Можно сделать вывод, что если не выполнять проверок на значимость предикторных переменных, то для получения хорошей МНК-оценки коэффициентов регрессии лучше взять предикторных переменных больше, нежели недобрать их.

Проверка значимости коэффициентов

Коэффициент линейной регрессии считается значимым, если его МНК-оценка отлична от нуля.

Опишем критерий Фишера проверки значимости коэффициентов линейной регрессии.

Нулевая гипотеза H_0:\; \Theta^2 = 0.

Нулевая гипотеза утверждает, что отклик Y не зависит от предикторных переменных X^2.

Статистика критерия:

F = \frac{\frac{1}{k - k_1} \| X\cdot\hat{\Theta} - X^1 \cdot \hat{\Theta^1}\|^2}{\frac{1}{n-k}\|Y - X\cdot\hat{\Theta}\|^2}

имеет имеет распределение Фишера с k-k_1 и n-k степенями свободы. Тогда критической областью критерия является правый хвост распределения Фишера, что соотвествует альтернативной гипотезе H_1.

Критерий (при уровне значимости \alpha) против альтернативы H_1:\; \Theta^2 \neq 0:

  • если F>F_{1-\alpha}(k-k_1,n-k), то нулевая гипотеза H_0 отвергается в пользу альтернативы H_1;
  • если F<=F_{1-\alpha}(k-k_1,n-k), то принимаем нулевую гипотезу H_0;

где F_{\alpha}(n-1,m-1) есть \alpha-квантиль распределения Фишера с n-1 и m-1 степенями свободы.

Литература

  1. Магнус Я. Р., Катышев П. К., Пересецкий А. А. Эконометрика. Начальный курс. — М.: Дело, 2004. — 576 с. стр.124-132

См. также

Ссылки

Статья в настоящий момент дорабатывается.
Валентина Федорова 20:15, 23 января 2009 (MSK)
Личные инструменты