Уровень значимости

Материал из MachineLearning.

(Различия между версиями)

Текущая версия

Содержание

1 Стандартная методика проверки статистических гипотез
2 Вычисление пи-величины
3 Вычисление ROC-кривой
4 Литература
5 См. также
6 Ссылки

Основная статья: Проверка статистических гипотез

Уровень значимости статистического теста — допустимая для данной задачи вероятность ошибки первого рода (ложноположительного решения, false positive), то есть вероятность отклонить нулевую гипотезу, когда на самом деле она верна.

Другая интерпретация: уровень значимости — это такое (достаточно малое) значение вероятности события, при котором событие уже можно считать неслучайным.

Уровень значимости обычно обозначают греческой буквой $\alpha$ (альфа).

Стандартная методика проверки статистических гипотез

В стандартной методике проверки статистических гипотез уровень значимости фиксируется заранее, до того, как становится известной выборка $x^m=(x_1,\ldots,x_m)$ .

Чрезмерное уменьшение уровня значимости (вероятности ошибки первого рода) $\alpha$ может привести к увеличению вероятности ошибки второго рода, то есть вероятности принять нулевую гипотезу, когда на самом деле она не верна (это называется ложноотрицательным решением, false negative). Вероятность ошибки второго рода $\beta$ связана с мощностью критерия $\gamma$ простым соотношением $\gamma = 1-\beta$ . Выбор уровня значимости требует компромисса между значимостью и мощностью или (что то же самое, но другими словами) между вероятностями ошибок первого и второго рода.

Обычно рекомендуется выбирать уровень значимости из априорных соображений. Однако на практике не вполне ясно, какими именно соображениями надо руководствоваться, и выбор часто сводится к назначению одного из популярных вариантов $\alpha=0.005,\; 0.01,\; 0.05,\; 0.1$ . В докомпьютерную эпоху эта стандартизация позволяла сократить объём справочных статистических таблиц. Теперь нет никаких специальных причин для выбора именно этих значений.

Существует две альтернативные методики, не требующие априорного назначения $\alpha$ .

Вычисление пи-величины

Достигаемый уровень значимости или пи-величина (p-value) — это наименьшая величина уровня значимости, при которой нулевая гипотеза отвергается для данного значения статистики критерия $T$ .

$p(T) = \min \{ \alpha:\: T\in\Omega_\alpha \},$

где $\Omega_\alpha$ — критическая область критерия.

Другая интерпретация: достигаемый уровень значимости или пи-величина $p(T)$ — это вероятность, с которой (при условии истинности нулевой гипотезы) могла бы реализоваться наблюдаемая выборка, или любая другая выборка с ещё менее вероятным значением статистики $T$ .

Случайная величина $p(T(x^m))$ имеет равномерное распределение. Фактически, функция $p(T)$ приводит значение статистики критерия $T$ к шкале вероятности. Маловероятным значениям (хвостам распределения) статистики $T$ соотвествуют значения $p(T)$ , близкие к нулю или к единице.

Вычислив значение $p(T(x^m))$ на заданной выборке $x^m$ , статистик имеет возможность решить, является ли это значение достаточно малым, чтобы отвергнуть нулевую гипотезу. Данная методика является более гибкой, чем стандартная. В частности, она допускает «нестандартное решение» — продолжить наблюдения, увеличивая объём выборки, если оценка вероятности ошибки первого рода попадает в зону неуверенности, скажем, в отрезок $[0.01,\,0.1]$ .

Вычисление ROC-кривой

ROC-кривая (receiver operating characteristic) — это зависимость мощности $(1-\beta)$ от уровня значимости $\alpha$ .

Методика предполагает, что статистик укажет подходящую точку на ROC-кривой, которая соответствует компромиссу между вероятностями ошибок I и II рода.

Это незавершённая статья. Вы поможете проекту, исправив и дополнив её.

Литература

Кобзарь А. И. Прикладная математическая статистика. Справочник для инженеров и научных работников. — М.: Физматлит, 2006.
Цейтлин Н. А. Из опыта аналитического статистика. — М.: Солар, 2006. — 905 с.
Алимов Ю. И. Альтернатива методу математической статистики. — М.: Знание, 1980.

См. также

Проверка статистических гипотез — о стандартной методике проверки статистических гипотез.
Достигаемый уровень значимости, синонимы: пи-величина, p-Value.

Ссылки

P-value — статья в англоязычной Википедии.
ROC curve — статья в англоязычной Википедии.

Источник — «http://machinelearning.ru/wiki/index.php?title=%D0%A3%D1%80%D0%BE%D0%B2%D0%B5%D0%BD%D1%8C_%D0%B7%D0%BD%D0%B0%D1%87%D0%B8%D0%BC%D0%BE%D1%81%D1%82%D0%B8»

Категории: Незавершённые статьи | Прикладная статистика

@@ Строка 1: / Строка 1: @@
 {{TOCright}}
-'''Уровень значимости''' [[Статистический тест|статистического теста]] — допустимая для данной задачи вероятность ошибки первого рода (ложноположительного решения, false positive), то есть вероятность отклонить [[нулевая гипотеза|нулевую гипотезу]], если на самом деле она верна.
+{{Main|Проверка статистических гипотез}}
+'''Уровень значимости''' [[Статистический тест|статистического теста]] — допустимая для данной задачи вероятность ошибки первого рода (ложноположительного решения, false positive), то есть вероятность отклонить [[нулевая гипотеза|нулевую гипотезу]], когда на самом деле она верна.
-Другая интерпретация: ''уровень значимости'' — это такое (достаточно малое) значение вероятности события, при котором событие уже можно считать неслучайным.
+Другая интерпретация:
+''уровень значимости'' — это такое (достаточно малое) значение вероятности события, при котором событие уже можно считать неслучайным.
 Уровень значимости обычно обозначают греческой буквой&nbsp;<tex>\alpha</tex> (альфа).
@@ Строка 11: / Строка 13: @@
 <tex>x^m=(x_1,\ldots,x_m)</tex>.
-Чрезмерное уменьшение уровня значимости (вероятности ошибки первого рода)&nbsp;<tex>\alpha</tex> может привести к увеличению вероятности ошибки второго рода, то есть вероятности принять нулевую гипотезу, если на самом деле она не верна (это называется также ложноотрицательным решением, false negative).
+Чрезмерное уменьшение уровня значимости (вероятности ошибки первого рода)&nbsp;<tex>\alpha</tex> может привести к увеличению вероятности ошибки второго рода, то есть вероятности принять нулевую гипотезу, когда на самом деле она не верна (это называется ложноотрицательным решением, false negative).
 Вероятность ошибки второго рода&nbsp;<tex>\beta</tex> связана с [[мощность критерия|мощностью критерия]]&nbsp;<tex>\gamma</tex> простым соотношением &nbsp;<tex>\gamma = 1-\beta</tex>.
 Выбор уровня значимости требует компромисса между значимостью и мощностью или
@@ Строка 17: / Строка 19: @@
 между вероятностями ошибок первого и второго рода.
-Обычно уровень значимости рекомендуется выбирать из априорных соображений.
+Обычно рекомендуется выбирать уровень значимости из априорных соображений.
 Однако на практике не вполне ясно, какими именно соображениями надо руководствоваться,
 и выбор часто сводится к назначению одного из популярных вариантов
-<tex>\alpha=0.001,\; 0.05,\; 0.1</tex>.
+<tex>\alpha=0.005,\; 0.01,\; 0.05,\; 0.1</tex>.
+В&nbsp;докомпьютерную эпоху эта стандартизация позволяла сократить объём справочных статистических таблиц.
+Теперь нет никаких специальных причин для выбора именно этих значений.
-Существует две альтернативные методики, не связанные с априорным назначением&nbsp;<tex>\alpha</tex>.
+Существует две альтернативные методики, не требующие априорного назначения&nbsp;<tex>\alpha</tex>.
-== Вычисление пи-величины (альфа-метод по Цейтлину) ==
+== Вычисление пи-величины ==
-'''Пи-величина''' (p-value) — это наименьшая величина уровня значимости,
+'''[[Достигаемый уровень значимости]]''' или '''[[пи-величина]]''' (p-value) — это наименьшая величина уровня значимости,
 при которой нулевая гипотеза отвергается для данного значения статистики критерия&nbsp;<tex>T</tex>.
-::<tex>\pi(T) = \min \{ \alpha:\: T\in\Omega_\alpha \},</tex>
+::<tex>p(T) = \min \{ \alpha:\: T\in\Omega_\alpha \},</tex>
 где
 <tex>\Omega_\alpha</tex> — критическая область критерия.
-Фактически, пи-величина — это функция, которая пересчитывает значение статистики критерия&nbsp;<tex>T</tex> в значение вероятности ошибки первого рода.
+Другая интерпретация:
+[[достигаемый уровень значимости]] или ''пи-величина''&nbsp;<tex>p(T)</tex> — это вероятность, с которой (при условии истинности нулевой гипотезы) могла бы реализоваться наблюдаемая выборка, или любая другая выборка с ещё менее вероятным значением статистики&nbsp;<tex>T</tex>.
-Методика предполагает, что, вычислив значение <tex>\pi(T(x^m))</tex> на заданной выборке <tex>x^m</tex>,
+Случайная величина <tex>p(T(x^m))</tex> имеет равномерное распределение.
-статистик сам решит, является ли это значение достаточно малым, чтобы отвергнуть нулевую гипотезу.
+Фактически, функция <tex>p(T)</tex> приводит значение статистики критерия&nbsp;<tex>T</tex> к шкале вероятности.
-Данная методика является более гибкой.
+Маловероятным значениям (хвостам распределения) статистики&nbsp;<tex>T</tex> соотвествуют значения <tex>p(T)</tex>, близкие к нулю или к единице.
-В&nbsp;частности, она допускает «нестандартное решение» — продолжить наблюдения (увеличить объём выборки), если оценка вероятности ошибки первого рода попадает в зону неуверенности.
-== Вычисление ROC-кривой (зависимости мощности от уровня значимости) ==
+Вычислив значение <tex>p(T(x^m))</tex> на заданной выборке <tex>x^m</tex>,
+статистик имеет возможность решить,
+является ли это значение достаточно малым, чтобы отвергнуть нулевую гипотезу.
+Данная методика является более гибкой, чем стандартная.
+В&nbsp;частности, она допускает «нестандартное решение» — продолжить наблюдения, увеличивая объём выборки, если оценка вероятности ошибки первого рода попадает в зону неуверенности, скажем, в отрезок <tex>[0.01,\,0.1]</tex>.
+== Вычисление ROC-кривой ==
-'''ROC-кривая''' (receiver operating characteristic) — это зависимость мощности&nbsp;<tex>(1-\beta)</tex> от уровня значимости или вероятности ошибки первого рода&nbsp;<tex>\alpha</tex>.
+'''ROC-кривая''' (receiver operating characteristic) — это зависимость мощности&nbsp;<tex>(1-\beta)</tex> от уровня значимости&nbsp;<tex>\alpha</tex>.
-Методика предполагает, что статистик укажет подходящую точку на ROC-кривой, которая соотвествует приемлемому компромиссу между вероятностями ошибки I и II рода.
+Методика предполагает, что статистик укажет подходящую точку на ROC-кривой, которая соответствует компромиссу между вероятностями ошибок I и II рода.
 {{Stub}}
@@ Строка 52: / Строка 62: @@
 # ''Алимов Ю. И.'' Альтернатива методу математической статистики. — М.:&nbsp;Знание, 1980.
-== Ссылки ==
+== См. также ==
-* [[Проверка статистических гипотез]] — о методологии проверки статистических гипотез.
+* [[Проверка статистических гипотез]] — о стандартной методике проверки статистических гипотез.
+* [[Достигаемый уровень значимости]], синонимы: [[пи-величина]], [[p-Value]].
+== Ссылки ==
 * [http://en.wikipedia.org/wiki/P-value P-value] — статья в англоязычной Википедии.
 * [http://en.wikipedia.org/wiki/ROC_curve ROC curve] — статья в англоязычной Википедии.
 [[Категория:Прикладная статистика]]

Уровень значимости

Материал из MachineLearning.

Текущая версия

Содержание

Стандартная методика проверки статистических гипотез

Вычисление пи-величины

Вычисление ROC-кривой

Литература

См. также

Ссылки

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты