False discovery rate
Материал из MachineLearning.
FDR (также False discovery rate, Ожидаемая доля ложных отклонений) — одна из мер, обобщающих ошибку первого рода, рассматриваемую при проверке статистических гипотез, на многомерный случай задачи множественной проверки гипотез. Величина определена как математическое ожидание доли ошибок среди отвергнутых гипотез.
Содержание |
Определение
Пусть — семейство нулевых гипотез, а — соответствующие им достигаемые уровни значимости на статистиках против альтернатив . Обозначим за - число отвергнутых гипотез, а за - число неверно отвергнутых гипотез, т.е. число ошибок первого рода.
Ожидаемая доля ложных отклонений гипотез, или FDR, определяется следующим образом
Контроль над FDR на уровне означает, что
Связь с FWER
Для любой процедуры множественной проверки гипотез FDR ≤ FWER.
Когда ?
Допустим все гипотезы верны. Тогда:
если с вероятностью если , , ..., с вероятностью </tex>P\(V\geq1\)</tex>
Методы контроля
Метод Бенджамини-Хохберга — частный случай метода Бенджамини-Иекутиели.
Обеспечивает контроль при условии независимости статистик . Или при условии &mdash positive regression dependence on subset[1] on :
- не убывает по ,
где - множество индексов верных гипотез, - произвольное возрастающее множество, то есть, такое, что из и следует
Впрочем, это условие весьма сложно проверить.
Литература
Handbook of Statistics: Bioinformatics in Human Health and Heredity
The Control of the False Discovery Rate in Multiple Testing under Dependency By Yoav Benjamini and Daniel Yekutieli[1]