Расстояние Кука
Материал из MachineLearning.
Строка 1: | Строка 1: | ||
'''Расстояние Кука''' (Cook's distance) является широко используемым методом оценки влияния соответствующего наблюдения (элемента выборки) на уравнение регрессии. Эта величина показывает разницу между вычисленными коэффициентами уравнения регрессии и значениями, которые получились бы при исключении соответствующего наблюдения. В адекватной модели все расстояния Кука должны быть примерно одинаковыми; если это не так, то имеются основания считать, что соответствующее наблюдение (или наблюдения) смещает оценки коэффициентов регрессии. | '''Расстояние Кука''' (Cook's distance) является широко используемым методом оценки влияния соответствующего наблюдения (элемента выборки) на уравнение регрессии. Эта величина показывает разницу между вычисленными коэффициентами уравнения регрессии и значениями, которые получились бы при исключении соответствующего наблюдения. В адекватной модели все расстояния Кука должны быть примерно одинаковыми; если это не так, то имеются основания считать, что соответствующее наблюдение (или наблюдения) смещает оценки коэффициентов регрессии. | ||
- | Метод назван в честь американского статистика Р. | + | Метод назван в честь американского статистика Р. Денниса Кука , который ввел данное понятие в 1977 году. |
== Определение == | == Определение == | ||
+ | Расстояние Кука измеряет эффект удаления данного наблюдения. Точки данных с большими остатками ( выбросов ) и / или высокой рычагов может исказить результат и точность регрессии. Очки с большого расстояния Кука считаются заслуживают более пристального изучения в анализе. | ||
- | |||
- | == | + | <math>D_i = \frac{ \sum_{j=1}^n (\hat Y_j\ - \hat Y_{j(i)})^2 }{p \ \mathrm{MSE}} .</math> |
Версия 12:06, 6 декабря 2013
Расстояние Кука (Cook's distance) является широко используемым методом оценки влияния соответствующего наблюдения (элемента выборки) на уравнение регрессии. Эта величина показывает разницу между вычисленными коэффициентами уравнения регрессии и значениями, которые получились бы при исключении соответствующего наблюдения. В адекватной модели все расстояния Кука должны быть примерно одинаковыми; если это не так, то имеются основания считать, что соответствующее наблюдение (или наблюдения) смещает оценки коэффициентов регрессии.
Метод назван в честь американского статистика Р. Денниса Кука , который ввел данное понятие в 1977 году.
Определение
Расстояние Кука измеряет эффект удаления данного наблюдения. Точки данных с большими остатками ( выбросов ) и / или высокой рычагов может исказить результат и точность регрессии. Очки с большого расстояния Кука считаются заслуживают более пристального изучения в анализе.
<math>D_i = \frac{ \sum_{j=1}^n (\hat Y_j\ - \hat Y_{j(i)})^2 }{p \ \mathrm{MSE}} .</math>