Расстояние Кука

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
Строка 1: Строка 1:
'''Расстояние Кука''' (Cook's distance) является широко используемым методом оценки влияния соответствующего наблюдения (элемента выборки) на уравнение регрессии. Эта величина показывает разницу между вычисленными коэффициентами уравнения регрессии и значениями, которые получились бы при исключении соответствующего наблюдения. В адекватной модели все расстояния Кука должны быть примерно одинаковыми; если это не так, то имеются основания считать, что соответствующее наблюдение (или наблюдения) смещает оценки коэффициентов регрессии.
'''Расстояние Кука''' (Cook's distance) является широко используемым методом оценки влияния соответствующего наблюдения (элемента выборки) на уравнение регрессии. Эта величина показывает разницу между вычисленными коэффициентами уравнения регрессии и значениями, которые получились бы при исключении соответствующего наблюдения. В адекватной модели все расстояния Кука должны быть примерно одинаковыми; если это не так, то имеются основания считать, что соответствующее наблюдение (или наблюдения) смещает оценки коэффициентов регрессии.
-
Метод назван в честь американского статистика Р. Деннис Кук , который ввел данное понятие в 1977 году.
+
Метод назван в честь американского статистика Р. Денниса Кука , который ввел данное понятие в 1977 году.
== Определение ==
== Определение ==
 +
Расстояние Кука измеряет эффект удаления данного наблюдения. Точки данных с большими остатками ( выбросов ) и / или высокой рычагов может исказить результат и точность регрессии. Очки с большого расстояния Кука считаются заслуживают более пристального изучения в анализе.
-
dg
 
-
=== Альтернативная постановка ===
+
<math>D_i = \frac{ \sum_{j=1}^n (\hat Y_j\ - \hat Y_{j(i)})^2 }{p \ \mathrm{MSE}} .</math>

Версия 12:06, 6 декабря 2013

Расстояние Кука (Cook's distance) является широко используемым методом оценки влияния соответствующего наблюдения (элемента выборки) на уравнение регрессии. Эта величина показывает разницу между вычисленными коэффициентами уравнения регрессии и значениями, которые получились бы при исключении соответствующего наблюдения. В адекватной модели все расстояния Кука должны быть примерно одинаковыми; если это не так, то имеются основания считать, что соответствующее наблюдение (или наблюдения) смещает оценки коэффициентов регрессии.

Метод назван в честь американского статистика Р. Денниса Кука , который ввел данное понятие в 1977 году.

Определение

Расстояние Кука измеряет эффект удаления данного наблюдения. Точки данных с большими остатками ( выбросов ) и / или высокой рычагов может исказить результат и точность регрессии. Очки с большого расстояния Кука считаются заслуживают более пристального изучения в анализе.


<math>D_i = \frac{ \sum_{j=1}^n (\hat Y_j\ - \hat Y_{j(i)})^2 }{p \ \mathrm{MSE}} .</math>


Замечания

Личные инструменты