Уровень значимости

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(дополнение, уточнение)
(Вычисление пи-величины)
 
(3 промежуточные версии не показаны)
Строка 1: Строка 1:
{{TOCright}}
{{TOCright}}
 +
{{Main|Проверка статистических гипотез}}
'''Уровень значимости''' [[Статистический тест|статистического теста]] — допустимая для данной задачи вероятность ошибки первого рода (ложноположительного решения, false positive), то есть вероятность отклонить [[нулевая гипотеза|нулевую гипотезу]], когда на самом деле она верна.
'''Уровень значимости''' [[Статистический тест|статистического теста]] — допустимая для данной задачи вероятность ошибки первого рода (ложноположительного решения, false positive), то есть вероятность отклонить [[нулевая гипотеза|нулевую гипотезу]], когда на самом деле она верна.
Строка 29: Строка 30:
== Вычисление пи-величины ==
== Вычисление пи-величины ==
-
'''Пи-величина''' (p-value) — это наименьшая величина уровня значимости,
+
'''[[Достигаемый уровень значимости]]''' или '''[[пи-величина]]''' (p-value) — это наименьшая величина уровня значимости,
при которой нулевая гипотеза отвергается для данного значения статистики критерия&nbsp;<tex>T</tex>.
при которой нулевая гипотеза отвергается для данного значения статистики критерия&nbsp;<tex>T</tex>.
-
::<tex>\pi(T) = \min \{ \alpha:\: T\in\Omega_\alpha \},</tex>
+
::<tex>p(T) = \min \{ \alpha:\: T\in\Omega_\alpha \},</tex>
где
где
<tex>\Omega_\alpha</tex> — критическая область критерия.
<tex>\Omega_\alpha</tex> — критическая область критерия.
Другая интерпретация:
Другая интерпретация:
-
''пи-величина''&nbsp;<tex>\pi(T)</tex> — это вероятность, с которой (при условии истинности нулевой гипотезы) могла бы реализоваться наблюдаемая выборка, или любая другая выборка с ещё менее вероятным значением статистики&nbsp;<tex>T</tex>.
+
[[достигаемый уровень значимости]] или ''пи-величина''&nbsp;<tex>p(T)</tex> — это вероятность, с которой (при условии истинности нулевой гипотезы) могла бы реализоваться наблюдаемая выборка, или любая другая выборка с ещё менее вероятным значением статистики&nbsp;<tex>T</tex>.
-
Случайная величина <tex>\pi(T(x^m))</tex> имеет равномерное распределение.
+
Случайная величина <tex>p(T(x^m))</tex> имеет равномерное распределение.
-
Фактически, функция <tex>\pi(T)</tex> приводит значение статистики критерия&nbsp;<tex>T</tex> к шкале вероятности.
+
Фактически, функция <tex>p(T)</tex> приводит значение статистики критерия&nbsp;<tex>T</tex> к шкале вероятности.
-
Маловероятным значениям (хвостам распределения) статистики&nbsp;<tex>T</tex> соотвествуют значения <tex>\pi(T)</tex>, близкие к нулю или к единице.
+
Маловероятным значениям (хвостам распределения) статистики&nbsp;<tex>T</tex> соотвествуют значения <tex>p(T)</tex>, близкие к нулю или к единице.
-
Вычислив значение <tex>\pi(T(x^m))</tex> на заданной выборке <tex>x^m</tex>,
+
Вычислив значение <tex>p(T(x^m))</tex> на заданной выборке <tex>x^m</tex>,
статистик имеет возможность решить,
статистик имеет возможность решить,
является ли это значение достаточно малым, чтобы отвергнуть нулевую гипотезу.
является ли это значение достаточно малым, чтобы отвергнуть нулевую гипотезу.
Строка 48: Строка 49:
В&nbsp;частности, она допускает «нестандартное решение» — продолжить наблюдения, увеличивая объём выборки, если оценка вероятности ошибки первого рода попадает в зону неуверенности, скажем, в отрезок <tex>[0.01,\,0.1]</tex>.
В&nbsp;частности, она допускает «нестандартное решение» — продолжить наблюдения, увеличивая объём выборки, если оценка вероятности ошибки первого рода попадает в зону неуверенности, скажем, в отрезок <tex>[0.01,\,0.1]</tex>.
-
Некоторые типичные заблуждения, связанные со значением пи-величины:
+
== Вычисление ROC-кривой ==
-
* пи-величина не равна вероятности истинности нулевой гипотезы; частотная статистика вообще не имеет права приписывать вероятности гипотезам;
+
-
* 1&nbsp;–&nbsp;(пи-величина) не равно вероятности истинности альтернативной гипотезы;
+
-
* пи-величина не равна вероятности ошибки первого рода;
+
-
* 1&nbsp;–&nbsp;(пи-величина) не равно вероятности ошибки второго рода;
+
-
* пи-величина не есть вероятность того, что повторный эксперимент не приведёт к тому же решению;
+
-
 
+
-
== Вычисление ROC-кривой (зависимости мощности от уровня значимости) ==
+
-
'''ROC-кривая''' (receiver operating characteristic) — это зависимость мощности&nbsp;<tex>(1-\beta)</tex> от уровня значимости или вероятности ошибки первого рода&nbsp;<tex>\alpha</tex>.
+
'''ROC-кривая''' (receiver operating characteristic) — это зависимость мощности&nbsp;<tex>(1-\beta)</tex> от уровня значимости&nbsp;<tex>\alpha</tex>.
Методика предполагает, что статистик укажет подходящую точку на ROC-кривой, которая соответствует компромиссу между вероятностями ошибок I и II рода.
Методика предполагает, что статистик укажет подходящую точку на ROC-кривой, которая соответствует компромиссу между вероятностями ошибок I и II рода.
Строка 68: Строка 62:
# ''Алимов Ю. И.'' Альтернатива методу математической статистики. — М.:&nbsp;Знание, 1980.
# ''Алимов Ю. И.'' Альтернатива методу математической статистики. — М.:&nbsp;Знание, 1980.
-
== Ссылки ==
+
== См. также ==
* [[Проверка статистических гипотез]] — о стандартной методике проверки статистических гипотез.
* [[Проверка статистических гипотез]] — о стандартной методике проверки статистических гипотез.
 +
* [[Достигаемый уровень значимости]], синонимы: [[пи-величина]], [[p-Value]].
 +
 +
== Ссылки ==
* [http://en.wikipedia.org/wiki/P-value P-value] — статья в англоязычной Википедии.
* [http://en.wikipedia.org/wiki/P-value P-value] — статья в англоязычной Википедии.
* [http://en.wikipedia.org/wiki/ROC_curve ROC curve] — статья в англоязычной Википедии.
* [http://en.wikipedia.org/wiki/ROC_curve ROC curve] — статья в англоязычной Википедии.
[[Категория:Прикладная статистика]]
[[Категория:Прикладная статистика]]

Текущая версия

Содержание

Уровень значимости статистического теста — допустимая для данной задачи вероятность ошибки первого рода (ложноположительного решения, false positive), то есть вероятность отклонить нулевую гипотезу, когда на самом деле она верна.

Другая интерпретация: уровень значимости — это такое (достаточно малое) значение вероятности события, при котором событие уже можно считать неслучайным.

Уровень значимости обычно обозначают греческой буквой \alpha (альфа).

Стандартная методика проверки статистических гипотез

В стандартной методике проверки статистических гипотез уровень значимости фиксируется заранее, до того, как становится известной выборка x^m=(x_1,\ldots,x_m).

Чрезмерное уменьшение уровня значимости (вероятности ошибки первого рода) \alpha может привести к увеличению вероятности ошибки второго рода, то есть вероятности принять нулевую гипотезу, когда на самом деле она не верна (это называется ложноотрицательным решением, false negative). Вероятность ошибки второго рода \beta связана с мощностью критерия \gamma простым соотношением  \gamma = 1-\beta. Выбор уровня значимости требует компромисса между значимостью и мощностью или (что то же самое, но другими словами) между вероятностями ошибок первого и второго рода.

Обычно рекомендуется выбирать уровень значимости из априорных соображений. Однако на практике не вполне ясно, какими именно соображениями надо руководствоваться, и выбор часто сводится к назначению одного из популярных вариантов \alpha=0.005,\; 0.01,\; 0.05,\; 0.1. В докомпьютерную эпоху эта стандартизация позволяла сократить объём справочных статистических таблиц. Теперь нет никаких специальных причин для выбора именно этих значений.

Существует две альтернативные методики, не требующие априорного назначения \alpha.

Вычисление пи-величины

Достигаемый уровень значимости или пи-величина (p-value) — это наименьшая величина уровня значимости, при которой нулевая гипотеза отвергается для данного значения статистики критерия T.

p(T) = \min \{ \alpha:\: T\in\Omega_\alpha \},

где \Omega_\alpha — критическая область критерия.

Другая интерпретация: достигаемый уровень значимости или пи-величина p(T) — это вероятность, с которой (при условии истинности нулевой гипотезы) могла бы реализоваться наблюдаемая выборка, или любая другая выборка с ещё менее вероятным значением статистики T.

Случайная величина p(T(x^m)) имеет равномерное распределение. Фактически, функция p(T) приводит значение статистики критерия T к шкале вероятности. Маловероятным значениям (хвостам распределения) статистики T соотвествуют значения p(T), близкие к нулю или к единице.

Вычислив значение p(T(x^m)) на заданной выборке x^m, статистик имеет возможность решить, является ли это значение достаточно малым, чтобы отвергнуть нулевую гипотезу. Данная методика является более гибкой, чем стандартная. В частности, она допускает «нестандартное решение» — продолжить наблюдения, увеличивая объём выборки, если оценка вероятности ошибки первого рода попадает в зону неуверенности, скажем, в отрезок [0.01,\,0.1].

Вычисление ROC-кривой

ROC-кривая (receiver operating characteristic) — это зависимость мощности (1-\beta) от уровня значимости \alpha.

Методика предполагает, что статистик укажет подходящую точку на ROC-кривой, которая соответствует компромиссу между вероятностями ошибок I и II рода.


Литература

  1. Кобзарь А. И. Прикладная математическая статистика. Справочник для инженеров и научных работников. — М.: Физматлит, 2006.
  2. Цейтлин Н. А. Из опыта аналитического статистика. — М.: Солар, 2006. — 905 с.
  3. Алимов Ю. И. Альтернатива методу математической статистики. — М.: Знание, 1980.

См. также

Ссылки

  • P-value — статья в англоязычной Википедии.
  • ROC curve — статья в англоязычной Википедии.
Личные инструменты