Расстояние Кука
Материал из MachineLearning.
Расстояние Кука (Cook's distance) является широко используемым методом оценки влияния соответствующего наблюдения (элемента выборки) на уравнение регрессии. Эта величина показывает разницу между вычисленными коэффициентами уравнения регрессии и значениями, которые получились бы при исключении соответствующего наблюдения. В адекватной модели все расстояния Кука должны быть примерно одинаковыми; если это не так, то имеются основания считать, что соответствующее наблюдение (или наблюдения) смещает оценки коэффициентов регрессии.
Метод назван в честь американского статистика Р. Денниса Кука , который ввел данное понятие в 1977 году.
Определение
Расстояние Кука измеряет эффект удаления данного наблюдения. Точки данных с большими остатками ( выбросов ) и / или высокой рычагов может исказить результат и точность регрессии. Очки с большого расстояния Кука считаются заслуживают более пристального изучения в анализе.
<math>D_i = \frac{ \sum_{j=1}^n (\hat Y_j\ - \hat Y_{j(i)})^2 }{p \ \mathrm{MSE}} .</math>