Критерий Бройша-Пагана

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
м
Строка 35: Строка 35:
[[Изображение:het_plot.png|thumb]]
[[Изображение:het_plot.png|thumb]]
[[Изображение:hom_plot.png|thumb]]
[[Изображение:hom_plot.png|thumb]]
 +
 +
Рассмотрим пример с использованием системы R:
<pre>
<pre>
-
 
> ## моделируем наблюдаемые переменные
> ## моделируем наблюдаемые переменные
> x <- rep(c(-1,1), 50)
> x <- rep(c(-1,1), 50)
-
> ## генерируем гетероскедастичные и гомоскедастичные ошибки
+
> ## генерируем гетероскедастичные ошибки
> err1 <- rnorm(100, sd=rep(c(1,2), 50))
> err1 <- rnorm(100, sd=rep(c(1,2), 50))
 +
> ## генерируем гомоскедастичные ошибки
> err2 <- rnorm(100)
> err2 <- rnorm(100)
> ## генерируем отклик
> ## генерируем отклик
Строка 53: Строка 55:
BP
BP
0.9464273
0.9464273
-
 
</pre>
</pre>

Версия 18:26, 27 декабря 2013

Содержание

Определение

Критерий Бройша-Пагана (также Бреуша-Пагана, англ. Breusch-Pagan test) - один из статистических тестов для проверки наличия гетероскедастичности (то есть непостоянной дисперсии) случайных ошибок модели линейной регрессии. Применяется, если есть основания полагать, что дисперсия случайных ошибок может зависеть от некоторой совокупности переменных. В данном случае проверяется линейная зависимость дисперсии случайных ошибок  \sigma_t от наблюдаемых переменных:

\sigma_t^2 = z_t^T \gamma, \quad t = 1,\dots,n, где z_t = (1,z_{2t},\dots,z_{pt})^T.

Формулировки проверяемой и альтернативной гипотез выглядят следующим образом:

H_0: \quad \gamma_2 = \ldots = \gamma_p = 0 \quad \Leftrightarrow \quad \sigma_1^2 = \ldots = \sigma_n^2 \quad \Leftrightarrow  остатки гомоскедастичны;
H_1: \quad H_0 неверна.

Процедура теста

Следуя методу множителей Лагранжа, получаем следующий вид статистики теста:

LM=\left (\frac{\partial l}{\partial\theta} \right )'\left (-E\left [\frac{\partial^2 l}{\partial\theta \partial\theta'} \right ] \right )^{-1}\left(\frac{\partial l}{\partial\theta} \right ).


В учебнике [C. Heij, P. de Boer, 2004] говорится о том что подсчет статистики сводится к следующей процедуре:

  • Шаг 1: Исходная модель  y = X\beta+\varepsilon оценивается обычным МНК, вычисляются остатки \varepsilon_t;
  • Шаг 2: Вычисление оценки дисперсии остатков (в предположении их гомоскедастичности):
\hat{\sigma}^2 = \frac{1}{n} RSS;
  • Шаг 3: Вычисление стандартизированных остатков \frac{\varepsilon^2}{\hat{\sigma}^2} ;
  • Шаг 4: Построение дополнительной регрессии квадратов стандартизированных ошибок на исходные наблюдаемые переменные
 \varepsilon_t^2=\gamma_1+\gamma_2z_{2t}+\dots+\gamma_pz_{pt}+\eta_t ;
  • Шаг 5:  LM=n R^{2}, где R^{2} - коэффициент детерминации построенной на предыдущем шаге регрессии.


В работе [Breush, Pagan, 1979] установлено, что при справедливости нулевой гипотезы о гомоскедастичности остатков статистика теста имеет распределение хи-квадрат с p-1 степенями свободы  LM \sim \chi^2 \left (p - 1 \right ).

Пример

Рассмотрим пример с использованием системы R:

> ## моделируем наблюдаемые переменные
> x <- rep(c(-1,1), 50)
> ## генерируем гетероскедастичные ошибки
> err1 <- rnorm(100, sd=rep(c(1,2), 50))
> ## генерируем гомоскедастичные ошибки
> err2 <- rnorm(100)
> ## генерируем отклик
> y1 <- 1 + x + err1
> y2 <- 1 + x + err2
> ## проводим тест Бройша-Пагана
> bptest(y1 ~ x)$p.value
          BP 
0.0007141008  
> bptest(y2 ~ x)$p.value
       BP
0.9464273 

Реализации

Ссылки