Уровень значимости

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
м (уточнение)
(Вычисление пи-величины)
 
(4 промежуточные версии не показаны)
Строка 1: Строка 1:
{{TOCright}}
{{TOCright}}
-
'''Уровень значимости''' [[Статистический тест|статистического теста]] — допустимая для данной задачи вероятность ошибки первого рода (ложноположительного решения, false positive), то есть вероятность отклонить [[нулевая гипотеза|нулевую гипотезу]], если на самом деле она верна.
+
{{Main|Проверка статистических гипотез}}
 +
'''Уровень значимости''' [[Статистический тест|статистического теста]] — допустимая для данной задачи вероятность ошибки первого рода (ложноположительного решения, false positive), то есть вероятность отклонить [[нулевая гипотеза|нулевую гипотезу]], когда на самом деле она верна.
-
Другая интерпретация: ''уровень значимости'' — это такое (достаточно малое) значение вероятности события, при котором событие уже можно считать неслучайным.
+
Другая интерпретация:
 +
''уровень значимости'' — это такое (достаточно малое) значение вероятности события, при котором событие уже можно считать неслучайным.
Уровень значимости обычно обозначают греческой буквой&nbsp;<tex>\alpha</tex> (альфа).
Уровень значимости обычно обозначают греческой буквой&nbsp;<tex>\alpha</tex> (альфа).
Строка 11: Строка 13:
<tex>x^m=(x_1,\ldots,x_m)</tex>.
<tex>x^m=(x_1,\ldots,x_m)</tex>.
-
Чрезмерное уменьшение уровня значимости (вероятности ошибки первого рода)&nbsp;<tex>\alpha</tex> может привести к увеличению вероятности ошибки второго рода, то есть вероятности принять нулевую гипотезу, если на самом деле она не верна (это называется также ложноотрицательным решением, false negative).
+
Чрезмерное уменьшение уровня значимости (вероятности ошибки первого рода)&nbsp;<tex>\alpha</tex> может привести к увеличению вероятности ошибки второго рода, то есть вероятности принять нулевую гипотезу, когда на самом деле она не верна (это называется ложноотрицательным решением, false negative).
Вероятность ошибки второго рода&nbsp;<tex>\beta</tex> связана с [[мощность критерия|мощностью критерия]]&nbsp;<tex>\gamma</tex> простым соотношением &nbsp;<tex>\gamma = 1-\beta</tex>.
Вероятность ошибки второго рода&nbsp;<tex>\beta</tex> связана с [[мощность критерия|мощностью критерия]]&nbsp;<tex>\gamma</tex> простым соотношением &nbsp;<tex>\gamma = 1-\beta</tex>.
Выбор уровня значимости требует компромисса между значимостью и мощностью или
Выбор уровня значимости требует компромисса между значимостью и мощностью или
Строка 17: Строка 19:
между вероятностями ошибок первого и второго рода.
между вероятностями ошибок первого и второго рода.
-
Обычно уровень значимости рекомендуется выбирать из априорных соображений.
+
Обычно рекомендуется выбирать уровень значимости из априорных соображений.
Однако на практике не вполне ясно, какими именно соображениями надо руководствоваться,
Однако на практике не вполне ясно, какими именно соображениями надо руководствоваться,
и выбор часто сводится к назначению одного из популярных вариантов
и выбор часто сводится к назначению одного из популярных вариантов
-
<tex>\alpha=0.001,\; 0.05,\; 0.1</tex>.
+
<tex>\alpha=0.005,\; 0.01,\; 0.05,\; 0.1</tex>.
 +
В&nbsp;докомпьютерную эпоху эта стандартизация позволяла сократить объём справочных статистических таблиц.
 +
Теперь нет никаких специальных причин для выбора именно этих значений.
-
Существует две альтернативные методики, не связанные с априорным назначением&nbsp;<tex>\alpha</tex>.
+
Существует две альтернативные методики, не требующие априорного назначения&nbsp;<tex>\alpha</tex>.
-
== Вычисление пи-величины (альфа-метод по Цейтлину) ==
+
== Вычисление пи-величины ==
-
'''Пи-величина''' (p-value) — это наименьшая величина уровня значимости,
+
'''[[Достигаемый уровень значимости]]''' или '''[[пи-величина]]''' (p-value) — это наименьшая величина уровня значимости,
при которой нулевая гипотеза отвергается для данного значения статистики критерия&nbsp;<tex>T</tex>.
при которой нулевая гипотеза отвергается для данного значения статистики критерия&nbsp;<tex>T</tex>.
-
::<tex>\pi(T) = \min \{ \alpha:\: T\in\Omega_\alpha \},</tex>
+
::<tex>p(T) = \min \{ \alpha:\: T\in\Omega_\alpha \},</tex>
где
где
<tex>\Omega_\alpha</tex> — критическая область критерия.
<tex>\Omega_\alpha</tex> — критическая область критерия.
-
Фактически, пи-величина — это функция, которая пересчитывает значение статистики критерия&nbsp;<tex>T</tex> в значение вероятности ошибки первого рода.
+
Другая интерпретация:
 +
[[достигаемый уровень значимости]] или ''пи-величина''&nbsp;<tex>p(T)</tex> — это вероятность, с которой (при условии истинности нулевой гипотезы) могла бы реализоваться наблюдаемая выборка, или любая другая выборка с ещё менее вероятным значением статистики&nbsp;<tex>T</tex>.
-
Методика предполагает, что, вычислив значение <tex>\pi(T(x^m))</tex> на заданной выборке <tex>x^m</tex>,
+
Случайная величина <tex>p(T(x^m))</tex> имеет равномерное распределение.
-
статистик сам решит, является ли это значение достаточно малым, чтобы отвергнуть нулевую гипотезу.
+
Фактически, функция <tex>p(T)</tex> приводит значение статистики критерия&nbsp;<tex>T</tex> к шкале вероятности.
-
Данная методика является более гибкой.
+
Маловероятным значениям (хвостам распределения) статистики&nbsp;<tex>T</tex> соотвествуют значения <tex>p(T)</tex>, близкие к нулю или к единице.
-
В&nbsp;частности, она допускает «нестандартное решение» — продолжить наблюдения (увеличить объём выборки), если оценка вероятности ошибки первого рода попадает в зону неуверенности.
+
-
== Вычисление ROC-кривой (зависимости мощности от уровня значимости) ==
+
Вычислив значение <tex>p(T(x^m))</tex> на заданной выборке <tex>x^m</tex>,
 +
статистик имеет возможность решить,
 +
является ли это значение достаточно малым, чтобы отвергнуть нулевую гипотезу.
 +
Данная методика является более гибкой, чем стандартная.
 +
В&nbsp;частности, она допускает «нестандартное решение» — продолжить наблюдения, увеличивая объём выборки, если оценка вероятности ошибки первого рода попадает в зону неуверенности, скажем, в отрезок <tex>[0.01,\,0.1]</tex>.
 +
 
 +
== Вычисление ROC-кривой ==
-
'''ROC-кривая''' (receiver operating characteristic) — это зависимость мощности&nbsp;<tex>(1-\beta)</tex> от уровня значимости или вероятности ошибки первого рода&nbsp;<tex>\alpha</tex>.
+
'''ROC-кривая''' (receiver operating characteristic) — это зависимость мощности&nbsp;<tex>(1-\beta)</tex> от уровня значимости&nbsp;<tex>\alpha</tex>.
-
Методика предполагает, что статистик укажет подходящую точку на ROC-кривой, которая соотвествует приемлемому компромиссу между вероятностями ошибки I и II рода.
+
Методика предполагает, что статистик укажет подходящую точку на ROC-кривой, которая соответствует компромиссу между вероятностями ошибок I и II рода.
{{Stub}}
{{Stub}}
Строка 52: Строка 62:
# ''Алимов Ю. И.'' Альтернатива методу математической статистики. — М.:&nbsp;Знание, 1980.
# ''Алимов Ю. И.'' Альтернатива методу математической статистики. — М.:&nbsp;Знание, 1980.
-
== Ссылки ==
+
== См. также ==
* [[Проверка статистических гипотез]] — о стандартной методике проверки статистических гипотез.
* [[Проверка статистических гипотез]] — о стандартной методике проверки статистических гипотез.
 +
* [[Достигаемый уровень значимости]], синонимы: [[пи-величина]], [[p-Value]].
 +
 +
== Ссылки ==
* [http://en.wikipedia.org/wiki/P-value P-value] — статья в англоязычной Википедии.
* [http://en.wikipedia.org/wiki/P-value P-value] — статья в англоязычной Википедии.
* [http://en.wikipedia.org/wiki/ROC_curve ROC curve] — статья в англоязычной Википедии.
* [http://en.wikipedia.org/wiki/ROC_curve ROC curve] — статья в англоязычной Википедии.
[[Категория:Прикладная статистика]]
[[Категория:Прикладная статистика]]

Текущая версия

Содержание

Уровень значимости статистического теста — допустимая для данной задачи вероятность ошибки первого рода (ложноположительного решения, false positive), то есть вероятность отклонить нулевую гипотезу, когда на самом деле она верна.

Другая интерпретация: уровень значимости — это такое (достаточно малое) значение вероятности события, при котором событие уже можно считать неслучайным.

Уровень значимости обычно обозначают греческой буквой \alpha (альфа).

Стандартная методика проверки статистических гипотез

В стандартной методике проверки статистических гипотез уровень значимости фиксируется заранее, до того, как становится известной выборка x^m=(x_1,\ldots,x_m).

Чрезмерное уменьшение уровня значимости (вероятности ошибки первого рода) \alpha может привести к увеличению вероятности ошибки второго рода, то есть вероятности принять нулевую гипотезу, когда на самом деле она не верна (это называется ложноотрицательным решением, false negative). Вероятность ошибки второго рода \beta связана с мощностью критерия \gamma простым соотношением  \gamma = 1-\beta. Выбор уровня значимости требует компромисса между значимостью и мощностью или (что то же самое, но другими словами) между вероятностями ошибок первого и второго рода.

Обычно рекомендуется выбирать уровень значимости из априорных соображений. Однако на практике не вполне ясно, какими именно соображениями надо руководствоваться, и выбор часто сводится к назначению одного из популярных вариантов \alpha=0.005,\; 0.01,\; 0.05,\; 0.1. В докомпьютерную эпоху эта стандартизация позволяла сократить объём справочных статистических таблиц. Теперь нет никаких специальных причин для выбора именно этих значений.

Существует две альтернативные методики, не требующие априорного назначения \alpha.

Вычисление пи-величины

Достигаемый уровень значимости или пи-величина (p-value) — это наименьшая величина уровня значимости, при которой нулевая гипотеза отвергается для данного значения статистики критерия T.

p(T) = \min \{ \alpha:\: T\in\Omega_\alpha \},

где \Omega_\alpha — критическая область критерия.

Другая интерпретация: достигаемый уровень значимости или пи-величина p(T) — это вероятность, с которой (при условии истинности нулевой гипотезы) могла бы реализоваться наблюдаемая выборка, или любая другая выборка с ещё менее вероятным значением статистики T.

Случайная величина p(T(x^m)) имеет равномерное распределение. Фактически, функция p(T) приводит значение статистики критерия T к шкале вероятности. Маловероятным значениям (хвостам распределения) статистики T соотвествуют значения p(T), близкие к нулю или к единице.

Вычислив значение p(T(x^m)) на заданной выборке x^m, статистик имеет возможность решить, является ли это значение достаточно малым, чтобы отвергнуть нулевую гипотезу. Данная методика является более гибкой, чем стандартная. В частности, она допускает «нестандартное решение» — продолжить наблюдения, увеличивая объём выборки, если оценка вероятности ошибки первого рода попадает в зону неуверенности, скажем, в отрезок [0.01,\,0.1].

Вычисление ROC-кривой

ROC-кривая (receiver operating characteristic) — это зависимость мощности (1-\beta) от уровня значимости \alpha.

Методика предполагает, что статистик укажет подходящую точку на ROC-кривой, которая соответствует компромиссу между вероятностями ошибок I и II рода.


Литература

  1. Кобзарь А. И. Прикладная математическая статистика. Справочник для инженеров и научных работников. — М.: Физматлит, 2006.
  2. Цейтлин Н. А. Из опыта аналитического статистика. — М.: Солар, 2006. — 905 с.
  3. Алимов Ю. И. Альтернатива методу математической статистики. — М.: Знание, 1980.

См. также

Ссылки

  • P-value — статья в англоязычной Википедии.
  • ROC curve — статья в англоязычной Википедии.
Личные инструменты