Уровень значимости
Материал из MachineLearning.
|
Уровень значимости статистического теста — допустимая для данной задачи вероятность ошибки первого рода (ложноположительного решения, false positive), то есть вероятность отклонить нулевую гипотезу, если на самом деле она верна.
Другая интерпретация: уровень значимости — это такое (достаточно малое) значение вероятности события, при котором событие уже можно считать неслучайным.
Уровень значимости обычно обозначают греческой буквой (альфа).
Стандартная методика проверки статистических гипотез
В стандартной методике проверки статистических гипотез уровень значимости фиксируется заранее, до того, как становится известной выборка .
Чрезмерное уменьшение уровня значимости (вероятности ошибки первого рода) может привести к увеличению вероятности ошибки второго рода, то есть вероятности принять нулевую гипотезу, если на самом деле она не верна (это называется также ложноотрицательным решением, false negative). Вероятность ошибки второго рода связана с мощностью критерия простым соотношением . Выбор уровня значимости требует компромисса между значимостью и мощностью или (что то же самое, но другими словами) между вероятностями ошибок первого и второго рода.
Обычно уровень значимости рекомендуется выбирать из априорных соображений. Однако на практике не вполне ясно, какими именно соображениями надо руководствоваться, и выбор часто сводится к назначению одного из популярных вариантов .
Существует две альтернативные методики, не связанные с априорным назначением .
Вычисление пи-величины (альфа-метод по Цейтлину)
Пи-величина (p-value) — это наименьшая величина уровня значимости, при которой нулевая гипотеза отвергается для данного значения статистики критерия .
где — критическая область критерия.
Фактически, пи-величина — это функция, которая пересчитывает значение статистики критерия в значение вероятности ошибки первого рода.
Методика предполагает, что, вычислив значение на заданной выборке , статистик сам решит, является ли это значение достаточно малым, чтобы отвергнуть нулевую гипотезу. Данная методика является более гибкой. В частности, она допускает «нестандартное решение» — продолжить наблюдения (увеличить объём выборки), если оценка вероятности ошибки первого рода попадает в зону неуверенности.
Вычисление ROC-кривой (зависимости мощности от уровня значимости)
ROC-кривая (receiver operating characteristic) — это зависимость мощности от уровня значимости или вероятности ошибки первого рода .
Методика предполагает, что статистик укажет подходящую точку на ROC-кривой, которая соотвествует приемлемому компромиссу между вероятностями ошибки I и II рода.
Литература
- Кобзарь А. И. Прикладная математическая статистика. Справочник для инженеров и научных работников. — М.: Физматлит, 2006.
- Цейтлин Н. А. Из опыта аналитического статистика. — М.: Солар, 2006. — 905 с.
- Алимов Ю. И. Альтернатива методу математической статистики. — М.: Знание, 1980.
Ссылки
- Проверка статистических гипотез — о методологии проверки статистических гипотез.
- P-value — статья в англоязычной Википедии.