Доверительные интервалы для параметров регрессии

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск

Версия 17:05, 29 января 2009

После того как были изучены [[статистические свойства МНК-оценок коэффициентов регрессии]], можно переходить к построению доверительных интервалов для коэффициентов регрессии, дисперсии шума, а также прогнозного значения отклика.

Доверительный интервал для коэффициентов регрессии

  • Работаем в предположениях, что выполнены ОП1, ОП2 и ДП3. Тогда можем воспользовать тем свойством, что величина
\frac{c^T(\hat\theta-\theta)}{\hat\sigma\sqrt{c^T(X^TX)^{-1}c}}
\sim t_{n-k} :имеет распределение Стьюдента с n-k степенями свободы.

  • Далее, если взять c = (0\cdots 01\limits^j 0\cdots 0) (т.е. произведение c^T\hat\theta выделяет j-ю компоненту вектора \hat\theta), то получим
\Delta\hat\theta =
t_{n-k,1-\frac{\alpha}2}\hat\sigma\sqrt{(X^TX)^{-1}_{jj}},

где t_{\alpha} есть \alpha-квантиль

распределения Стьюдента с n-k степенями свободы.

  • Тогда двусторонний доверительный интервал с доверительной вероятностью 1-\alpha для коэффициента регрессии \theta_j будет иметь вид:
\hat\theta_j-\Delta\hat\theta_j \leq \theta_j \leq
\hat\theta_j+\Delta\hat\theta_j.

Доверительный интервал для дисперсии шума

  • Регрессионные остатки (шум) \varepsilon_i имеют нормальное распределние N(0,\sigma^2). Для анализа неизвестной дисперсии \sigma^2 шума может быть использовано свойство, что случайная величина
\frac{RSS}{\sigma^2} \sim \chi^2_{n-k} :распределена по

закону хи-квадрат с n-k степенями свободы.

  • Тогда доверительный интервал с доверительной вероятностью 1-\alpha для дисперсии шума равен:
\frac{RSS}{\chi^2_{n-k,\frac{\alpha}2}} \leq \sigma^2 \leq
\frac{RSS}{\chi^2_{n-k,1-\frac{\alpha}2}}, :где \chi_{\alpha} есть \alpha-квантиль распределения хи-квадрат с n-k степенями свободы.

Доверительный интервал для прогнозного значения отклика

  • Как и в случае построения доверительного интервала для коэффициентов регрессии, воспользуемся свойством, что величина
\frac{c^T(\hat\theta-\theta)}{\hat\sigma\sqrt{c^T(X^TX)^{-1}c}}
\sim t_{n-k} :имеет распределение Стьюдента с n-k степенями свободы.

  • Пусть x_0 = (x_{01}\cdots x_{0k}) - новый объект в регрессионной модели, положим c=x_0.
  • Тогда доверительный интервал для значения отклика y(x_0) с доверительной вероятностью 1-\alpha будеи иметь вид:
 x_0^T\hat\theta-\Delta y_0 \leq y(x_0) \leq
x_0^T\hat\theta+\Delta y_0, \; где ::x_0^T\hat\theta =
\hat y_0; ::\Delta y_0 =
t_{n-k,1-\frac{\alpha}2}\hat\sigma\sqrt{x_0^T(X^TX)^{-1}x_0}.

Личные инструменты