Расстояние Кука

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
Строка 1: Строка 1:
'''Расстояние Кука''' (Cook's distance) является широко используемым методом оценки влияния соответствующего наблюдения (элемента выборки) на уравнение регрессии. Эта величина показывает разницу между вычисленными коэффициентами уравнения регрессии и значениями, которые получились бы при исключении соответствующего наблюдения. В адекватной модели все расстояния Кука должны быть примерно одинаковыми; если это не так, то имеются основания считать, что соответствующее наблюдение (или наблюдения) смещает оценки коэффициентов регрессии.
'''Расстояние Кука''' (Cook's distance) является широко используемым методом оценки влияния соответствующего наблюдения (элемента выборки) на уравнение регрессии. Эта величина показывает разницу между вычисленными коэффициентами уравнения регрессии и значениями, которые получились бы при исключении соответствующего наблюдения. В адекватной модели все расстояния Кука должны быть примерно одинаковыми; если это не так, то имеются основания считать, что соответствующее наблюдение (или наблюдения) смещает оценки коэффициентов регрессии.
-
Метод назван в честь американского статистика Р. Денниса Кука , который ввел данное понятие в 1977 году.
+
Метод назван в честь американского ученого [http://users.stat.umn.edu/~rdcook/ Р. Денниса Кука] , который ввел данное понятие в 1977 году.
== Определение ==
== Определение ==

Версия 12:45, 6 декабря 2013

Расстояние Кука (Cook's distance) является широко используемым методом оценки влияния соответствующего наблюдения (элемента выборки) на уравнение регрессии. Эта величина показывает разницу между вычисленными коэффициентами уравнения регрессии и значениями, которые получились бы при исключении соответствующего наблюдения. В адекватной модели все расстояния Кука должны быть примерно одинаковыми; если это не так, то имеются основания считать, что соответствующее наблюдение (или наблюдения) смещает оценки коэффициентов регрессии.

Метод назван в честь американского ученого Р. Денниса Кука , который ввел данное понятие в 1977 году.

Определение

Расстояние Кука оценивает эффект от удаления одного (рассматриваемого) наблюдения и вычисляется по следующей формуле:


 D_i =  \frac{ \sum_{j=1}^n (\hat Y_j\ - \hat Y_{j(i)})^2 }{p \ \mathrm{MSE}}

где,

\hat Y_j - предсказание регрессионной модели, построенной по всей выборке, получаемое для j-ого наблюдения;

\hat Y_{j(i)} - предсказание регрессионной модели, построенной по выборке без i-ого наблюдения, получаемое для j-ого наблюдения;

p - количество параметров модели

 \mathrm{MSE} - средне-квадратичная ошибка модели


Замечания

Личные инструменты