Дисперсия остатков

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Новая: Качество модели линейной регрессии связано с адекватностью (соотв...)
Строка 3: Строка 3:
==Описание метода==
==Описание метода==
-
Основными показателями качества линейной регрессионной модели являются
+
Основными показателями качества линейной регрессионной модели являются:
* Среднеквадратичная ошибка уравнения регрессии <tex>S^2,</tex> равная
* Среднеквадратичная ошибка уравнения регрессии <tex>S^2,</tex> равная
Строка 11: Строка 11:
::<tex>\sigma^2 = \frac{\sum\limits_{i=1}^n(y_i - \bar y)}{n-1}, \;\;</tex> где <tex>\bar y = \frac1n \sum\limits_{i=1}^n y_i.</tex>
::<tex>\sigma^2 = \frac{\sum\limits_{i=1}^n(y_i - \bar y)}{n-1}, \;\;</tex> где <tex>\bar y = \frac1n \sum\limits_{i=1}^n y_i.</tex>
-
* Для оценки дисперсии шума <tex>\sigma^2</tex> предварительно проводится серия наблюдений над [[многомерная случайная величина|случайной величиной]] <tex>y</tex> при фиксированной величине <tex>x</tex>. В итоге получаем выборку <tex>\tilde y = (\tilde y_1, \cdots, \tilde y_m),</tex> где <tex>m</tex> - число наблюдений. Тогда
+
 
 +
Для оценки дисперсии шума <tex>\sigma^2</tex> предварительно проводится серия наблюдений над [[многомерная случайная величина|случайной величиной]] <tex>y</tex> при фиксированной величине <tex>x</tex>. В итоге получаем выборку <tex>\tilde y = (\tilde y_1, \cdots, \tilde y_m),</tex> где <tex>m</tex> - число наблюдений. Тогда
::<tex> \sigma^2 = \frac{\sum\limits_{i=1}^n(\tilde y_i - \bar{\tilde y})}{n-1}, \;\;</tex> где <tex>\bar{\tilde y} = \frac1n \sum\limits_{i=1}^n \tilde y_i.</tex>
::<tex> \sigma^2 = \frac{\sum\limits_{i=1}^n(\tilde y_i - \bar{\tilde y})}{n-1}, \;\;</tex> где <tex>\bar{\tilde y} = \frac1n \sum\limits_{i=1}^n \tilde y_i.</tex>

Версия 02:19, 30 января 2009

Качество модели линейной регрессии связано с адекватностью (соответствием) модели наблюдаемым данным. Проверка адекватности модели регрессии проводится на основе анализа регрессионных остатков, в частности, на основе анализа дисперсии остатков.

Содержание

Описание метода

Основными показателями качества линейной регрессионной модели являются:

  • Среднеквадратичная ошибка уравнения регрессии S^2, равная
S^2 = \frac{RSS}{n-k}, \;\; где RSS = \sum\limits_{i=1}^n(y_i-\hat y_i)^2 - остаточная сумма квадратов.
  • Среднеквадратичное отклонение результата \sigma^2:
\sigma^2 = \frac{\sum\limits_{i=1}^n(y_i - \bar y)}{n-1}, \;\; где \bar y = \frac1n \sum\limits_{i=1}^n y_i.


Для оценки дисперсии шума \sigma^2 предварительно проводится серия наблюдений над случайной величиной y при фиксированной величине x. В итоге получаем выборку \tilde y = (\tilde y_1, \cdots, \tilde y_m), где m - число наблюдений. Тогда

 \sigma^2 = \frac{\sum\limits_{i=1}^n(\tilde y_i - \bar{\tilde y})}{n-1}, \;\; где \bar{\tilde y} = \frac1n \sum\limits_{i=1}^n \tilde y_i.
  • В качестве статистики критерия берется отношение
F = \frac{S^2}{\sigma^2} \; \sim \; F_{n-k-1,m}
которое имеет распределение Фишера с n-k-1 и m степенями свободы.
  • Если F > F_{n-k-1,m,\alpha}, где F_\alpha - \alpha-квантиль распределения Фишера, то ошибка в модели регрессии признается статистически значимой.
  • В противном случае модель признается адекватной и дисперсию S^2 можно использовать в качестве несмещенной оценки для \sigma^2.

Литература

  1. Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006. — 816 с.

См. также

Ссылки

Личные инструменты