Расстояние Кука

Материал из MachineLearning.

(Различия между версиями)

Версия 15:07, 3 января 2014

Расстояние Кука (Cook's distance) является широко используемым методом оценки влияния соответствующего наблюдения (элемента выборки) на уравнение регрессии. Эта величина показывает разницу между вычисленными коэффициентами уравнения регрессии и значениями, которые получились бы при исключении соответствующего наблюдения. В адекватной модели все расстояния Кука должны быть примерно одинаковыми; если это не так, то имеются основания считать, что соответствующее наблюдение (или наблюдения) смещает оценки коэффициентов регрессии.

Метод назван в честь американского ученого Р. Денниса Кука , который ввел данное понятие в 1977 году.

Определение

Расстояние Кука оценивает эффект от удаления одного (рассматриваемого) наблюдения и вычисляется по следующей формуле:

$D_i = \frac{ \sum_{j=1}^n (\hat Y_j\ - \hat Y_{j(i)})^2 }{p \ \mathrm{MSE}},$

где

$\hat Y_j$ — предсказание регрессионной модели, построенной по всей выборке, получаемое для $j$ -ого наблюдения,

$\hat Y_{j(i)}$ — предсказание регрессионной модели, построенной по выборке без $i$ -ого наблюдения, получаемое для $j$ -ого наблюдения,

$p$ — количество параметров модели,

$\mathrm{MSE}$ — среднеквадратичная ошибка модели.

Нахождение и удаление выбросов

Существуют различные подходы к определению выбросов с помощью расстояния Кука.

Самый простой способ нахождения это порог $D_i > 1$ ^[1]

Наиболее распространенной эвристикой считается $D_i > 4/n$ , где $n$ — количество наблюдений в выборке. ^[1]

Пример использования

Визуализация наблюдений с помощью расстояния Кука. Красным обозначен уровень 4/n, где n — количество наблюдений (n = 206).

Рассмотрим задачу по оценке эффективность тромболитической терапии. В данной задаче собраны данные по 206 пациентам второго кардиологического отделения московской городской клинической больницы №25. Имеются результаты 14 анализов, а также 8 дополнительных признаков, описывающих пациента (пол, возраст, курение, наличие диабета и т.д.). Построив уравнение регрессии и оценив расстояние Кука, мы можем визуализировать наблюдения и определить выбросы.

Реализации

MATLAB: В версии 2013b и выше реализован отдельный класс для обобщенной модели регрессии.

Построив модель с помощью функции mdl = fitglm(X, y), можем оценить для всех наблюдений расстояние Кука с помощью функций класса: mdl.Diagnostics.CooksDistance.

R: в пакете stats реализован метод для оценки расстояния Кука для уже настроенной модели cooks.distance(model, ...).

Ссылки

Cook, R. Dennis (February 1977). "Detection of Influential Observations in Linear Regression".

Bollen, Kenneth A.; and Jackman, Robert W. (1990); Regression diagnostics: An expository treatment of outliers and influential cases , in Fox, John; and Long, J. Scott (eds.); Modern Methods of Data Analysis (pp. 257-91).

GeneralizedLinearModel class. MATLAB R2013b Documentation.

Источник — «http://machinelearning.ru/wiki/index.php?title=%D0%A0%D0%B0%D1%81%D1%81%D1%82%D0%BE%D1%8F%D0%BD%D0%B8%D0%B5_%D0%9A%D1%83%D0%BA%D0%B0»

Категории: Прикладная статистика | Регрессионный анализ

@@ Строка 26: / Строка 26: @@
 Самый простой способ нахождения это порог <tex> D_i > 1 </tex> <ref name="heij">Cook, R. Dennis; and Weisberg, Sanford (1982); Residuals and influence in regression, New York, NY: Chapman & Hall.</ref>
-Наиболее распространенной эвристикой считается <tex> D_i > 4/n </tex>, где <tex>n</tex> — количество наблюдений в выборке.
+Наиболее распространенной эвристикой считается <tex> D_i > 4/n </tex>, где <tex>n</tex> — количество наблюдений в выборке. <ref name="two"> Bollen, Kenneth A.; and Jackman, Robert W. (1990); Regression diagnostics: An expository treatment of outliers and influential cases , in Fox, John; and Long, J. Scott (eds.); Modern Methods of Data Analysis (pp. 257-91). </ref>
 == Пример использования ==

Расстояние Кука

Материал из MachineLearning.

Версия 15:07, 3 января 2014

Содержание

Определение

Нахождение и удаление выбросов

Пример использования

Реализации

Ссылки

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты