Уровень значимости
Материал из MachineLearning.
|
Уровень значимости статистического теста — допустимая для данной задачи вероятность ошибки первого рода (ложноположительного решения, false positive), то есть вероятность отклонить нулевую гипотезу, когда на самом деле она верна.
Другая интерпретация: уровень значимости — это такое (достаточно малое) значение вероятности события, при котором событие уже можно считать неслучайным.
Уровень значимости обычно обозначают греческой буквой (альфа).
Стандартная методика проверки статистических гипотез
В стандартной методике проверки статистических гипотез уровень значимости фиксируется заранее, до того, как становится известной выборка
.
Чрезмерное уменьшение уровня значимости (вероятности ошибки первого рода) может привести к увеличению вероятности ошибки второго рода, то есть вероятности принять нулевую гипотезу, когда на самом деле она не верна (это называется ложноотрицательным решением, false negative).
Вероятность ошибки второго рода
связана с мощностью критерия
простым соотношением
.
Выбор уровня значимости требует компромисса между значимостью и мощностью или
(что то же самое, но другими словами)
между вероятностями ошибок первого и второго рода.
Обычно рекомендуется выбирать уровень значимости из априорных соображений.
Однако на практике не вполне ясно, какими именно соображениями надо руководствоваться,
и выбор часто сводится к назначению одного из популярных вариантов
.
В докомпьютерную эпоху эта стандартизация позволяла сократить объём справочных статистических таблиц.
Теперь нет никаких специальных причин для выбора именно этих значений.
Существует две альтернативные методики, не требующие априорного назначения .
Вычисление пи-величины
Пи-величина (p-value) — это наименьшая величина уровня значимости,
при которой нулевая гипотеза отвергается для данного значения статистики критерия .
где
— критическая область критерия.
Другая интерпретация:
пи-величина — это вероятность, с которой (при условии истинности нулевой гипотезы) могла бы реализоваться наблюдаемая выборка, или любая другая выборка с ещё менее вероятным значением статистики
.
Случайная величина имеет равномерное распределение.
Фактически, функция
приводит значение статистики критерия
к шкале вероятности.
Маловероятным значениям (хвостам распределения) статистики
соотвествуют значения
, близкие к нулю или к единице.
Вычислив значение на заданной выборке
,
статистик имеет возможность решить,
является ли это значение достаточно малым, чтобы отвергнуть нулевую гипотезу.
Данная методика является более гибкой, чем стандартная.
В частности, она допускает «нестандартное решение» — продолжить наблюдения, увеличивая объём выборки, если оценка вероятности ошибки первого рода попадает в зону неуверенности, скажем, в отрезок
.
Некоторые типичные заблуждения, связанные со значением пи-величины:
- пи-величина не равна вероятности истинности нулевой гипотезы; частотная статистика вообще не имеет права приписывать вероятности гипотезам;
- 1 – (пи-величина) не равно вероятности истинности альтернативной гипотезы;
- пи-величина не равна вероятности ошибки первого рода;
- 1 – (пи-величина) не равно вероятности ошибки второго рода;
- пи-величина не есть вероятность того, что повторный эксперимент не приведёт к тому же решению;
Вычисление ROC-кривой (зависимости мощности от уровня значимости)
ROC-кривая (receiver operating characteristic) — это зависимость мощности от уровня значимости или вероятности ошибки первого рода
.
Методика предполагает, что статистик укажет подходящую точку на ROC-кривой, которая соответствует компромиссу между вероятностями ошибок I и II рода.
Литература
- Кобзарь А. И. Прикладная математическая статистика. Справочник для инженеров и научных работников. — М.: Физматлит, 2006.
- Цейтлин Н. А. Из опыта аналитического статистика. — М.: Солар, 2006. — 905 с.
- Алимов Ю. И. Альтернатива методу математической статистики. — М.: Знание, 1980.
Ссылки
- Проверка статистических гипотез — о стандартной методике проверки статистических гипотез.
- P-value — статья в англоязычной Википедии.
- ROC curve — статья в англоязычной Википедии.