Расстояние Кука
Материал из MachineLearning.
Расстояние Кука (Cook's distance) является широко используемым методом оценки влияния соответствующего наблюдения (элемента выборки) на уравнение регрессии. Эта величина показывает разницу между вычисленными коэффициентами уравнения регрессии и значениями, которые получились бы при исключении соответствующего наблюдения. В адекватной модели все расстояния Кука должны быть примерно одинаковыми; если это не так, то имеются основания считать, что соответствующее наблюдение (или наблюдения) смещает оценки коэффициентов регрессии.
Метод назван в честь американского ученого Р. Денниса Кука , который ввел данное понятие в 1977 году.
Определение
Расстояние Кука оценивает эффект от удаления одного (рассматриваемого) наблюдения и вычисляется по следующей формуле:
где,
- - предсказание регрессионной модели, построенной по всей выборке, получаемое для -ого наблюдения;
- - предсказание регрессионной модели, построенной по выборке без -ого наблюдения, получаемое для -ого наблюдения;
- - количество параметров модели
- - средне-квадратичная ошибка модели
Нахождение и удаление выбросов
Существуют различные подходы к определению выбросов с помощью расстояния Кука. Наиболее распространенной эвристикой считается