Дисперсия остатков
Материал из MachineLearning.
(Различия между версиями)
(Новая: Качество модели линейной регрессии связано с адекватностью (соотв...) |
м (→Описание метода) |
||
(1 промежуточная версия не показана) | |||
Строка 3: | Строка 3: | ||
==Описание метода== | ==Описание метода== | ||
- | Основными показателями качества линейной регрессионной модели являются | + | Основными показателями качества линейной регрессионной модели являются: |
* Среднеквадратичная ошибка уравнения регрессии <tex>S^2,</tex> равная | * Среднеквадратичная ошибка уравнения регрессии <tex>S^2,</tex> равная | ||
Строка 11: | Строка 11: | ||
::<tex>\sigma^2 = \frac{\sum\limits_{i=1}^n(y_i - \bar y)}{n-1}, \;\;</tex> где <tex>\bar y = \frac1n \sum\limits_{i=1}^n y_i.</tex> | ::<tex>\sigma^2 = \frac{\sum\limits_{i=1}^n(y_i - \bar y)}{n-1}, \;\;</tex> где <tex>\bar y = \frac1n \sum\limits_{i=1}^n y_i.</tex> | ||
- | + | ||
+ | Для оценки дисперсии шума <tex>\sigma^2</tex> предварительно проводится серия наблюдений над [[многомерная случайная величина|случайной величиной]] <tex>y</tex> при фиксированной величине <tex>x</tex>. В итоге получаем выборку <tex>\tilde y = (\tilde y_1, \cdots, \tilde y_m),</tex> где <tex>m</tex> - число наблюдений. Тогда | ||
::<tex> \sigma^2 = \frac{\sum\limits_{i=1}^n(\tilde y_i - \bar{\tilde y})}{n-1}, \;\;</tex> где <tex>\bar{\tilde y} = \frac1n \sum\limits_{i=1}^n \tilde y_i.</tex> | ::<tex> \sigma^2 = \frac{\sum\limits_{i=1}^n(\tilde y_i - \bar{\tilde y})}{n-1}, \;\;</tex> где <tex>\bar{\tilde y} = \frac1n \sum\limits_{i=1}^n \tilde y_i.</tex> | ||
Строка 20: | Строка 21: | ||
*Если <tex>F > F_{n-k-1,m,\alpha},</tex> где <tex>F_\alpha</tex> - <tex>\alpha</tex>-[[квантиль]] распределения Фишера, то ошибка в модели регрессии признается статистически значимой. | *Если <tex>F > F_{n-k-1,m,\alpha},</tex> где <tex>F_\alpha</tex> - <tex>\alpha</tex>-[[квантиль]] распределения Фишера, то ошибка в модели регрессии признается статистически значимой. | ||
- | *В противном случае модель признается адекватной и дисперсию <tex>S^2</tex> можно использовать в качестве [[несмещённость|несмещенной]] оценки для <tex>\sigma^2.</tex> | + | *В противном случае модель признается адекватной, и дисперсию <tex>S^2</tex> можно использовать в качестве [[несмещённость|несмещенной]] оценки для <tex>\sigma^2.</tex> |
==Литература== | ==Литература== |
Текущая версия
Качество модели линейной регрессии связано с адекватностью (соответствием) модели наблюдаемым данным. Проверка адекватности модели регрессии проводится на основе анализа регрессионных остатков, в частности, на основе анализа дисперсии остатков.
Содержание |
Описание метода
Основными показателями качества линейной регрессионной модели являются:
- Среднеквадратичная ошибка уравнения регрессии равная
- где - остаточная сумма квадратов.
- Среднеквадратичное отклонение результата
- где
Для оценки дисперсии шума предварительно проводится серия наблюдений над случайной величиной при фиксированной величине . В итоге получаем выборку где - число наблюдений. Тогда
- где
- В качестве статистики критерия берется отношение
- которое имеет распределение Фишера с и степенями свободы.
- Если где - -квантиль распределения Фишера, то ошибка в модели регрессии признается статистически значимой.
- В противном случае модель признается адекватной, и дисперсию можно использовать в качестве несмещенной оценки для
Литература
- Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006. — 816 с.