Анализ регрессионных остатков (пример)

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
Строка 5: Строка 5:
<tex>y_i=\sum_{j=1}^m w_j x_{ij} + \varepsilon_i, i=1,\dots,n</tex>. Требуется создать инструмент анализа адекватности модели используя '''[[анализ регрессионных остатков]]''' и исследовать значимость признаков и поведение остатков в случае гетероскедастичности.
<tex>y_i=\sum_{j=1}^m w_j x_{ij} + \varepsilon_i, i=1,\dots,n</tex>. Требуется создать инструмент анализа адекватности модели используя '''[[анализ регрессионных остатков]]''' и исследовать значимость признаков и поведение остатков в случае гетероскедастичности.
 +
== Описание алгоритма ==
== Описание алгоритма ==
-
Анализ регрессионных остатков заключается в проверке нескольких гипотез:
+
 
-
*<tex> E \varepsilon_i = 0,i= 1,\dots,n</tex>{{eqno|1}}
+
=== Анализ регрессионных остатков ===
-
*<tex> D \varepsilon_i = \sigma^2,i= 1,\dots,n</tex>{{eqno|2}}
+
Анализ регрессионных остатков заключается в проверке нескольких гипотез:
-
*<tex> \varepsilon_i \sim N(0,\sigma), i= 1,\dots,n</tex> {{eqno|3}}
+
* <tex> E \varepsilon_i = 0,i= 1,\dots,n</tex>{{eqno|1}}
-
*<tex> \varepsilon_i, i= 1,\dots,n</tex>{{eqno|4}} - независимы
+
* <tex> D \varepsilon_i = \sigma^2,i= 1,\dots,n</tex>{{eqno|2}}
-
где <tex>\varepsilon_i=y_i-\hat{y_i}</tex>, <tex>i= 1,\dots,n</tex> - регрессионные остатки конкретной модели.
+
* <tex> \varepsilon_i \sim N(0,\sigma), i= 1,\dots,n</tex> {{eqno|3}}
 +
* <tex> \varepsilon_i, i= 1,\dots,n</tex>{{eqno|4}} — независимы
 +
где <tex>\varepsilon_i=y_i-\hat{y_i}</tex>, <tex>i= 1,\dots,n</tex> — регрессионные остатки конкретной модели.
Для проверки первой гипотезы воспользуемся [[критерий знаков|критерием знаков]].
Для проверки первой гипотезы воспользуемся [[критерий знаков|критерием знаков]].
-
Проверка второй гипотезы по сути является проверкой на гомоскедастичность(т.е. на постоянство дисперсии, случай гетероскедастичности будет рассмотрен ниже). Для этого воспользуемся двумя статистическими тестами: тестом Ансари-Брэдли и критерием Голдфелда-Кванта.
+
Проверка второй гипотезы по сути является проверкой на гомоскедастичность(то есть на постоянство дисперсии, случай гетероскедастичности будет рассмотрен ниже). Для этого воспользуемся двумя статистическими тестами: тестом Ансари-Брэдли и критерием Голдфелда-Кванта.
Так как тест Ансари-Брэдли фактически осуществляет проверку гипотезы, что у двух предоставленных выборок дисперсии одинаковы, а мы фактически имеем только один вектор остатков, то произведем несколько тестов, сравнивая в каждом две случайные выборки из нашего вектора остатков.
Так как тест Ансари-Брэдли фактически осуществляет проверку гипотезы, что у двух предоставленных выборок дисперсии одинаковы, а мы фактически имеем только один вектор остатков, то произведем несколько тестов, сравнивая в каждом две случайные выборки из нашего вектора остатков.
-
Проверку нормальности распределения осуществим с помощью [[критерий хи-квадрат|критерия согласия хи-квадрат]], модифицированного для проверки на нормальность, т.е. сравнивая данное нам распределение в остатках с нормальным распределением, имеющим моментные характеристики вычисленные из вектора остатков. Наконец проверку последнего условия реализуем с помощью [[статистика Дарбина-Уотсона|статистики Дарбина-Уотсона]].
+
Проверку нормальности распределения осуществим с помощью [[критерий хи-квадрат|критерия согласия хи-квадрат]], модифицированного для проверки на нормальность, то есть сравнивая данное нам распределение в остатках с нормальным распределением, имеющим моментные характеристики вычисленные из вектора остатков. Наконец проверку последнего условия реализуем с помощью [[статистика Дарбина-Уотсона|статистики Дарбина-Уотсона]].
 +
 
 +
=== Оценка значимости признаков ===
 +
Задача состоит в исследовании для каждого из признаков, дает ли нам учет этого признака в модели более хорошие результаты нежели без него или нет. Оценивать результаты будем с помощью [[коэффициент детерминации|коэффициента детерминации]]:
 +
 
 +
<tex>R^2 \equiv 1 - {\sum_i (y_i - {f}_i)^2\over \sum_i (y_i-\bar{y})^2\,</tex>
 +
 
 +
где <tex>y_i</tex> - эмпирический отклик, <tex>f_i</tex> - отклик посчитанный по модели и
 +
<tex>\bar{y}</tex> - [[математическое ожидание]] <tex>y_i</tex>

Версия 04:24, 17 июня 2010

Для получения информации об адекватности построенной модели многомерной линейной регрессии используется анализ регрессионных остатков

Содержание

Постановка задачи

Задана выборка D = \{ y_i,\mathbf{x}_i\}_{i=1}^n откликов и признаков. Рассматривается множество линейных регрессионных моделей вида:

y_i=\sum_{j=1}^m w_j x_{ij} + \varepsilon_i, i=1,\dots,n. Требуется создать инструмент анализа адекватности модели используя анализ регрессионных остатков и исследовать значимость признаков и поведение остатков в случае гетероскедастичности.

Описание алгоритма

Анализ регрессионных остатков

Анализ регрессионных остатков заключается в проверке нескольких гипотез:

  •  E \varepsilon_i = 0,i= 1,\dots,n
    (1)
  •  D \varepsilon_i = \sigma^2,i= 1,\dots,n
    (2)
  •   \varepsilon_i \sim N(0,\sigma), i= 1,\dots,n
    (3)
  •   \varepsilon_i,  i= 1,\dots,n
    (4)
     — независимы

где \varepsilon_i=y_i-\hat{y_i}, i= 1,\dots,n — регрессионные остатки конкретной модели.

Для проверки первой гипотезы воспользуемся критерием знаков. Проверка второй гипотезы по сути является проверкой на гомоскедастичность(то есть на постоянство дисперсии, случай гетероскедастичности будет рассмотрен ниже). Для этого воспользуемся двумя статистическими тестами: тестом Ансари-Брэдли и критерием Голдфелда-Кванта. Так как тест Ансари-Брэдли фактически осуществляет проверку гипотезы, что у двух предоставленных выборок дисперсии одинаковы, а мы фактически имеем только один вектор остатков, то произведем несколько тестов, сравнивая в каждом две случайные выборки из нашего вектора остатков. Проверку нормальности распределения осуществим с помощью критерия согласия хи-квадрат, модифицированного для проверки на нормальность, то есть сравнивая данное нам распределение в остатках с нормальным распределением, имеющим моментные характеристики вычисленные из вектора остатков. Наконец проверку последнего условия реализуем с помощью статистики Дарбина-Уотсона.

Оценка значимости признаков

Задача состоит в исследовании для каждого из признаков, дает ли нам учет этого признака в модели более хорошие результаты нежели без него или нет. Оценивать результаты будем с помощью коэффициента детерминации:

R^2 \equiv 1 - {\sum_i (y_i - {f}_i)^2\over \sum_i (y_i-\bar{y})^2\,

где y_i - эмпирический отклик, f_i - отклик посчитанный по модели и \bar{y} - математическое ожидание y_i

Личные инструменты