Процедура Каплана-Мейера

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Пример 2(экономика))
 
(5 промежуточных версий не показаны.)
Строка 1: Строка 1:
-
'''Процедура Каплана-Мейера или процедура выживания''' (англ. Kaplan-Meier estimator) оценивает функцию выживаемости.
+
'''Процедура Каплана-Мейера или процедура выживания''' (англ. Kaplan-Meier estimator) оценивает [[Функция выживаемости|функцию выживаемости]].
-
График оценки функции выживаемости представляет из себя серию убывающих горизонтальных ступенек, где берутся достаточно большые отрезки, приближающие реальные значения функции выживаемости для этой задачи. Значения функции выживаемости между точками наблюдений считаются константными.
+
График оценки функции выживаемости представляет из себя убывающую ступенчатую линию, приближающюю реальные значения функции выживаемости для этой задачи. Значения функции выживаемости между точками наблюдений считаются константными.
Важным преимуществом процедуры Каплана-Мейера, является то, что этот метод справляется с цензурированными данными, т.е. учитывается, что пациенты могут выбывать в ходе эксперимента.
Важным преимуществом процедуры Каплана-Мейера, является то, что этот метод справляется с цензурированными данными, т.е. учитывается, что пациенты могут выбывать в ходе эксперимента.
-
 
-
Преимущество метода Каплана-Мейера (по сравнению с методом таблиц жизни) состоит в том, что оценки не зависят от разбиения времени наблюдения на интервалы, т.е. от группировки. Метод множительных оценок и метод таблиц времен жизни приводят, по существу, к одинаковым результатам, если временные интервалы содержат, максимум, по одному наблюдению.
 
==Примеры задач==
==Примеры задач==
Строка 12: Строка 10:
===Пример 2(экономика)===
===Пример 2(экономика)===
-
Оценить время, сколько человек будет безработным , после ухода с прежнего места работы.
+
Оценить время, которое человек пробудет безработным, после ухода с прежнего места работы.
===Пример 3(машиностроение)===
===Пример 3(машиностроение)===
-
ценить время, пока какая-то часть автомобиля откажет.
+
Оценить время до того, как какая-то часть автомобиля откажет.
-
 
+
==Описание метода==
==Описание метода==
-
===Исходные данные===
 
-
<tex>i\in\{1,\cdots,T\}</tex>
 
-
<tex>t_i</tex> - момент времени
+
===Оценка Каплана-Мейера===
 +
Для цензурированных, но не группированных наблюдений времен жизни, функцию выживания можно оценить непосредственно.
-
<tex>R_i</tex> - число объектов, доживающих до момента времени <tex>t_i</tex>, исключая выбывших
+
Пусть выбраны <tex>t_i</tex> - моменты времени.
-
<tex>d_i</tex> - число объектов, для которых произошёл исход в момент времени <tex>t_i</tex>
+
Для каждого момента времени оценим вероятность пережить этот момент. Такой оценкой будет отношение числа переживших этот момент к числу наблюдавшихся к этому моменту. Тогда, согласно правилу умножения вероятностей, перемножая вероятности выживания в каждом интервале, получим следующую формулу.
-
===Оценка Каплана-Мейера===
+
'''Оценка функции выживания''' вычисляется по формуле
-
Для цензурированных, но не группированных наблюдений времен жизни, функцию выживания можно оценить непосредственно (без таблицы времен жизни). Перемножая вероятности выживания в каждом интервале, получим следующую формулу.
+
-
'''Оценка функции выживания''' равна
+
<tex>\hat{S}(t)=\prod_{i=0}^{T}\frac{R_i-d_i}{R_i}</tex>,
-
<tex>\hat{S}(t)=\prod_{i=1}^{T}\frac{R_i-d_i}{R_i}</tex>,
+
где
-
где <tex>\frac{d_i}{R_i}</tex> - вероятность исхода
+
<tex>R_i</tex> - число объектов, доживающих до момента времени <tex>t_i</tex>, исключая выбывших,
 +
 
 +
<tex>d_i</tex> - число объектов, для которых произошёл исход в момент времени <tex>t_i</tex>,
 +
 
 +
<tex>\frac{d_i}{R_i}</tex> - вероятность исхода.
 +
 
 +
Заметим, что можно перемножать значения только для тех моментов времени, когда произошёл хотя бы один исход, потому что, если <tex>d_i=0</tex>, то <tex>\frac{R_i-d_i}{R_i}=1</tex>, а умножение на единицу никак результат не меняет.
Данная оценка функции выживания, называемая множительной оценкой, впервые была предложена Капланом и Мейером (1958).
Данная оценка функции выживания, называемая множительной оценкой, впервые была предложена Капланом и Мейером (1958).
-
==Доверительный интервал==
+
==Доверительный интервал выживаемости==
 +
Оценку точности приближения кривой выживаемости дает стандартная ошибка выживаемости, ее можно рассчитать по формуле Гринвуда:
<tex>\sigma_{\hat{S}}=\hat{S}(t)\sqrt{\sum_{i=0}^{t} \frac{d_i}{R_i(R_i-d_i)}}</tex>
<tex>\sigma_{\hat{S}}=\hat{S}(t)\sqrt{\sum_{i=0}^{t} \frac{d_i}{R_i(R_i-d_i)}}</tex>
-
[[Доверительный интервал]] с доверительной вероятностью <tex>1-\alpha</tex>:
+
[[Доверительный интервал]] выживаемости в момент времени <tex>t</tex> с доверительной вероятностью <tex>1-\alpha</tex> определяется так:
 +
 
 +
<tex>\hat{S}(t)-\sigma_{\hat{S}}\Phi_{\alpha}<S(t)<\hat{S}(t)+\sigma_{\hat{S}}\Phi_{\alpha}</tex>,
 +
 
 +
где <tex>\Phi_{\alpha}</tex> - квантиль нормального распределения. Обычно берётся 95% [[Доверительный интервал|доверительный интервал]], т.е. <tex>\alpha=0.05</tex>.
-
<tex>\hat{S}(t)\pm\sigma_{\hat{S}}\Phi_{\alpha}</tex>,
+
[[Изображение:Conf_interval_for_surv_function.jpg|thumb]]
-
где <tex>\Phi_{\alpha}</tex> - квантиль нормального распределения.
+
Если посмортреть на графике пример доверительного интервала, то виден расширяющийся «рукав» — доверительную область для выживаемости. Причина расширения доверительной области заключается в том, что чем меньше наблюдений к концу эксперимента, тем больше ошибка.Поэтому существует ограничение при
 +
оценке доверительных интервалов для функции выживаемости. Дело в том, что нормальное приближение вносит сильные искажения, когда функция выживаемости принимает значение, близкое к граничным — к 0 или 1. Приведенная выше формула, напротив, дает симметричную оценку, которая может выйти за граничные значения 1 и 0. Простейший способ подправить такую оценку состоит в том, чтобы значения, большие единицы, заменить на единицу, а меньшие нуля — на ноль.
Строка 72: Строка 79:
== Ссылки ==
== Ссылки ==
-
*[http://en.wikipedia.org/wiki/Kaplan-Meier Kaplan-Meier estimator]
+
*[http://en.wikipedia.org/wiki/Kaplan-Meier Kaplan-Meier estimator] (Wikipedia)
 +
*[http://www.statsoft.ru/home/textbook/modules/stsurvan.html#kaplan Множительные оценки Каплана-Мейера] (StatSoft)
[[Категория: Прикладная статистика]][[Категория:Анализ выживаемости]]
[[Категория: Прикладная статистика]][[Категория:Анализ выживаемости]]
-
{{UnderConstruction|[[Участник:Ekaterina Mikhaylova|Ekaterina Mikhaylova]] 06:16, 11 января 2009 (MSK)}}
 

Текущая версия

Процедура Каплана-Мейера или процедура выживания (англ. Kaplan-Meier estimator) оценивает функцию выживаемости.

График оценки функции выживаемости представляет из себя убывающую ступенчатую линию, приближающюю реальные значения функции выживаемости для этой задачи. Значения функции выживаемости между точками наблюдений считаются константными.

Важным преимуществом процедуры Каплана-Мейера, является то, что этот метод справляется с цензурированными данными, т.е. учитывается, что пациенты могут выбывать в ходе эксперимента.

Содержание

Примеры задач

Пример 1(медицина)

Пациенты принимают некое лекарство. Нужно оценить долю пациентов, проживших после этого какой-то период времени.

Пример 2(экономика)

Оценить время, которое человек пробудет безработным, после ухода с прежнего места работы.

Пример 3(машиностроение)

Оценить время до того, как какая-то часть автомобиля откажет.

Описание метода

Оценка Каплана-Мейера

Для цензурированных, но не группированных наблюдений времен жизни, функцию выживания можно оценить непосредственно.

Пусть выбраны t_i - моменты времени.

Для каждого момента времени оценим вероятность пережить этот момент. Такой оценкой будет отношение числа переживших этот момент к числу наблюдавшихся к этому моменту. Тогда, согласно правилу умножения вероятностей, перемножая вероятности выживания в каждом интервале, получим следующую формулу.

Оценка функции выживания вычисляется по формуле

\hat{S}(t)=\prod_{i=0}^{T}\frac{R_i-d_i}{R_i},

где

R_i - число объектов, доживающих до момента времени t_i, исключая выбывших,

d_i - число объектов, для которых произошёл исход в момент времени t_i,

\frac{d_i}{R_i} - вероятность исхода.

Заметим, что можно перемножать значения только для тех моментов времени, когда произошёл хотя бы один исход, потому что, если d_i=0, то \frac{R_i-d_i}{R_i}=1, а умножение на единицу никак результат не меняет.

Данная оценка функции выживания, называемая множительной оценкой, впервые была предложена Капланом и Мейером (1958).


Доверительный интервал выживаемости

Оценку точности приближения кривой выживаемости дает стандартная ошибка выживаемости, ее можно рассчитать по формуле Гринвуда:

\sigma_{\hat{S}}=\hat{S}(t)\sqrt{\sum_{i=0}^{t} \frac{d_i}{R_i(R_i-d_i)}}

Доверительный интервал выживаемости в момент времени t с доверительной вероятностью 1-\alpha определяется так:

\hat{S}(t)-\sigma_{\hat{S}}\Phi_{\alpha}<S(t)<\hat{S}(t)+\sigma_{\hat{S}}\Phi_{\alpha},

где \Phi_{\alpha} - квантиль нормального распределения. Обычно берётся 95% доверительный интервал, т.е. \alpha=0.05.

Если посмортреть на графике пример доверительного интервала, то виден расширяющийся «рукав» — доверительную область для выживаемости. Причина расширения доверительной области заключается в том, что чем меньше наблюдений к концу эксперимента, тем больше ошибка.Поэтому существует ограничение при оценке доверительных интервалов для функции выживаемости. Дело в том, что нормальное приближение вносит сильные искажения, когда функция выживаемости принимает значение, близкое к граничным — к 0 или 1. Приведенная выше формула, напротив, дает симметричную оценку, которая может выйти за граничные значения 1 и 0. Простейший способ подправить такую оценку состоит в том, чтобы значения, большие единицы, заменить на единицу, а меньшие нуля — на ноль.


Литература

  • Стентон Гланц Медико-биологическая статистика. Электронная книга = Primer of BIOSTATISTICS. — 4-е изд. — М.: Практика, 1999. — С. 459.


См. также

Ссылки

Личные инструменты