Процедура Каплана-Мейера
Материал из MachineLearning.
(→Пример 2(экономика)) |
|||
(7 промежуточных версий не показаны.) | |||
Строка 1: | Строка 1: | ||
- | '''Процедура Каплана-Мейера или процедура выживания''' (англ. Kaplan-Meier estimator) оценивает функцию выживаемости. | + | '''Процедура Каплана-Мейера или процедура выживания''' (англ. Kaplan-Meier estimator) оценивает [[Функция выживаемости|функцию выживаемости]]. |
- | График оценки функции выживаемости представляет из себя | + | График оценки функции выживаемости представляет из себя убывающую ступенчатую линию, приближающюю реальные значения функции выживаемости для этой задачи. Значения функции выживаемости между точками наблюдений считаются константными. |
Важным преимуществом процедуры Каплана-Мейера, является то, что этот метод справляется с цензурированными данными, т.е. учитывается, что пациенты могут выбывать в ходе эксперимента. | Важным преимуществом процедуры Каплана-Мейера, является то, что этот метод справляется с цензурированными данными, т.е. учитывается, что пациенты могут выбывать в ходе эксперимента. | ||
- | |||
- | |||
==Примеры задач== | ==Примеры задач== | ||
Строка 12: | Строка 10: | ||
===Пример 2(экономика)=== | ===Пример 2(экономика)=== | ||
- | Оценить время, | + | Оценить время, которое человек пробудет безработным, после ухода с прежнего места работы. |
===Пример 3(машиностроение)=== | ===Пример 3(машиностроение)=== | ||
- | + | Оценить время до того, как какая-то часть автомобиля откажет. | |
- | + | ||
==Описание метода== | ==Описание метода== | ||
- | |||
- | |||
- | + | ===Оценка Каплана-Мейера=== | |
+ | Для цензурированных, но не группированных наблюдений времен жизни, функцию выживания можно оценить непосредственно. | ||
- | <tex> | + | Пусть выбраны <tex>t_i</tex> - моменты времени. |
- | + | Для каждого момента времени оценим вероятность пережить этот момент. Такой оценкой будет отношение числа переживших этот момент к числу наблюдавшихся к этому моменту. Тогда, согласно правилу умножения вероятностей, перемножая вероятности выживания в каждом интервале, получим следующую формулу. | |
- | + | '''Оценка функции выживания''' вычисляется по формуле | |
- | + | ||
- | + | <tex>\hat{S}(t)=\prod_{i=0}^{T}\frac{R_i-d_i}{R_i}</tex>, | |
- | + | где | |
- | + | <tex>R_i</tex> - число объектов, доживающих до момента времени <tex>t_i</tex>, исключая выбывших, | |
+ | |||
+ | <tex>d_i</tex> - число объектов, для которых произошёл исход в момент времени <tex>t_i</tex>, | ||
+ | |||
+ | <tex>\frac{d_i}{R_i}</tex> - вероятность исхода. | ||
+ | |||
+ | Заметим, что можно перемножать значения только для тех моментов времени, когда произошёл хотя бы один исход, потому что, если <tex>d_i=0</tex>, то <tex>\frac{R_i-d_i}{R_i}=1</tex>, а умножение на единицу никак результат не меняет. | ||
Данная оценка функции выживания, называемая множительной оценкой, впервые была предложена Капланом и Мейером (1958). | Данная оценка функции выживания, называемая множительной оценкой, впервые была предложена Капланом и Мейером (1958). | ||
- | ==Доверительный интервал== | + | ==Доверительный интервал выживаемости== |
+ | Оценку точности приближения кривой выживаемости дает стандартная ошибка выживаемости, ее можно рассчитать по формуле Гринвуда: | ||
<tex>\sigma_{\hat{S}}=\hat{S}(t)\sqrt{\sum_{i=0}^{t} \frac{d_i}{R_i(R_i-d_i)}}</tex> | <tex>\sigma_{\hat{S}}=\hat{S}(t)\sqrt{\sum_{i=0}^{t} \frac{d_i}{R_i(R_i-d_i)}}</tex> | ||
- | [[Доверительный интервал]] с доверительной вероятностью <tex>1-\alpha</tex>: | + | [[Доверительный интервал]] выживаемости в момент времени <tex>t</tex> с доверительной вероятностью <tex>1-\alpha</tex> определяется так: |
+ | |||
+ | <tex>\hat{S}(t)-\sigma_{\hat{S}}\Phi_{\alpha}<S(t)<\hat{S}(t)+\sigma_{\hat{S}}\Phi_{\alpha}</tex>, | ||
+ | |||
+ | где <tex>\Phi_{\alpha}</tex> - квантиль нормального распределения. Обычно берётся 95% [[Доверительный интервал|доверительный интервал]], т.е. <tex>\alpha=0.05</tex>. | ||
- | + | [[Изображение:Conf_interval_for_surv_function.jpg|thumb]] | |
- | + | Если посмортреть на графике пример доверительного интервала, то виден расширяющийся «рукав» — доверительную область для выживаемости. Причина расширения доверительной области заключается в том, что чем меньше наблюдений к концу эксперимента, тем больше ошибка.Поэтому существует ограничение при | |
+ | оценке доверительных интервалов для функции выживаемости. Дело в том, что нормальное приближение вносит сильные искажения, когда функция выживаемости принимает значение, близкое к граничным — к 0 или 1. Приведенная выше формула, напротив, дает симметричную оценку, которая может выйти за граничные значения 1 и 0. Простейший способ подправить такую оценку состоит в том, чтобы значения, большие единицы, заменить на единицу, а меньшие нуля — на ноль. | ||
Строка 72: | Строка 79: | ||
== Ссылки == | == Ссылки == | ||
- | *[http://en.wikipedia.org/wiki/Kaplan-Meier Kaplan-Meier estimator] | + | *[http://en.wikipedia.org/wiki/Kaplan-Meier Kaplan-Meier estimator] (Wikipedia) |
+ | *[http://www.statsoft.ru/home/textbook/modules/stsurvan.html#kaplan Множительные оценки Каплана-Мейера] (StatSoft) | ||
[[Категория: Прикладная статистика]][[Категория:Анализ выживаемости]] | [[Категория: Прикладная статистика]][[Категория:Анализ выживаемости]] |
Текущая версия
Процедура Каплана-Мейера или процедура выживания (англ. Kaplan-Meier estimator) оценивает функцию выживаемости.
График оценки функции выживаемости представляет из себя убывающую ступенчатую линию, приближающюю реальные значения функции выживаемости для этой задачи. Значения функции выживаемости между точками наблюдений считаются константными.
Важным преимуществом процедуры Каплана-Мейера, является то, что этот метод справляется с цензурированными данными, т.е. учитывается, что пациенты могут выбывать в ходе эксперимента.
Содержание |
Примеры задач
Пример 1(медицина)
Пациенты принимают некое лекарство. Нужно оценить долю пациентов, проживших после этого какой-то период времени.
Пример 2(экономика)
Оценить время, которое человек пробудет безработным, после ухода с прежнего места работы.
Пример 3(машиностроение)
Оценить время до того, как какая-то часть автомобиля откажет.
Описание метода
Оценка Каплана-Мейера
Для цензурированных, но не группированных наблюдений времен жизни, функцию выживания можно оценить непосредственно.
Пусть выбраны - моменты времени.
Для каждого момента времени оценим вероятность пережить этот момент. Такой оценкой будет отношение числа переживших этот момент к числу наблюдавшихся к этому моменту. Тогда, согласно правилу умножения вероятностей, перемножая вероятности выживания в каждом интервале, получим следующую формулу.
Оценка функции выживания вычисляется по формуле
,
где
- число объектов, доживающих до момента времени , исключая выбывших,
- число объектов, для которых произошёл исход в момент времени ,
- вероятность исхода.
Заметим, что можно перемножать значения только для тех моментов времени, когда произошёл хотя бы один исход, потому что, если , то , а умножение на единицу никак результат не меняет.
Данная оценка функции выживания, называемая множительной оценкой, впервые была предложена Капланом и Мейером (1958).
Доверительный интервал выживаемости
Оценку точности приближения кривой выживаемости дает стандартная ошибка выживаемости, ее можно рассчитать по формуле Гринвуда:
Доверительный интервал выживаемости в момент времени с доверительной вероятностью определяется так:
,
где - квантиль нормального распределения. Обычно берётся 95% доверительный интервал, т.е. .
Если посмортреть на графике пример доверительного интервала, то виден расширяющийся «рукав» — доверительную область для выживаемости. Причина расширения доверительной области заключается в том, что чем меньше наблюдений к концу эксперимента, тем больше ошибка.Поэтому существует ограничение при оценке доверительных интервалов для функции выживаемости. Дело в том, что нормальное приближение вносит сильные искажения, когда функция выживаемости принимает значение, близкое к граничным — к 0 или 1. Приведенная выше формула, напротив, дает симметричную оценку, которая может выйти за граничные значения 1 и 0. Простейший способ подправить такую оценку состоит в том, чтобы значения, большие единицы, заменить на единицу, а меньшие нуля — на ноль.
Литература
- Стентон Гланц Медико-биологическая статистика. Электронная книга = Primer of BIOSTATISTICS. — 4-е изд. — М.: Практика, 1999. — С. 459.
См. также
Ссылки
- Kaplan-Meier estimator (Wikipedia)
- Множительные оценки Каплана-Мейера (StatSoft)