False discovery rate
Материал из MachineLearning.
FDR (также False discovery rate, Ожидаемая доля ложных отклонений) — одна из мер, обобщающих ошибку первого рода, рассматриваемую при проверке статистических гипотез, на многомерный случай задачи множественной проверки гипотез. Величина определена как математическое ожидание доли ошибок среди отвергнутых гипотез.
Содержание[убрать] |
Определение
Пусть — семейство нулевых гипотез, а
— соответствующие им достигаемые уровни значимости на статистиках
против альтернатив
. Обозначим за
- число отвергнутых гипотез, а за
- число неверно отвергнутых гипотез, т.е. число ошибок первого рода.
Ожидаемая доля ложных отклонений гипотез, или FDR, определяется следующим образом
Контроль над FDR на уровне означает, что
Связь с FWER
Для любой процедуры множественной проверки гипотез FDR ≤ FWER.
Когда ?
Допустим все гипотезы верны.
Тогда:
если
с вероятностью
если
,
, ...,
с вероятностью </tex>P\(V\geq1\)</tex>
Методы контроля
Метод Бенджамини-Хохберга — частный случай метода Бенджамини-Иекутиели.
Обеспечивает контроль при условии независимости статистик
. Или при условии
&mdash positive regression dependence on subset[1] on
:
не убывает по
,
где - множество индексов верных гипотез,
- произвольное возрастающее множество, то есть, такое, что из
и
следует
Впрочем, это условие весьма сложно проверить.
Литература
Handbook of Statistics: Bioinformatics in Human Health and Heredity
The Control of the False Discovery Rate in Multiple Testing under Dependency By Yoav Benjamini and Daniel Yekutieli[1]