Проверка статистических гипотез
Материал из MachineLearning.
(про p-value) |
м (уточнение) |
||
Строка 29: | Строка 29: | ||
* Выбранная статистика <tex>T</tex> может отражать не всю информацию, содержащуюся в гипотезе <tex>H_0</tex>. В таком случае увеличивается вероятность ошибки второго рода — нулевая гипотеза может быть принята, хотя на самом деле она не верна. Допустим, например, что <tex>H_0</tex> = «распределение нормально»; <tex>T(X^m)</tex> = «[[коэффициент асимметрии]]»; тогда выборка с любым симметричным распределением будет признана нормальной. Чтобы избегать таких ошибок, следует пользоваться более [[Мощность критерия|мощными критериями]]. | * Выбранная статистика <tex>T</tex> может отражать не всю информацию, содержащуюся в гипотезе <tex>H_0</tex>. В таком случае увеличивается вероятность ошибки второго рода — нулевая гипотеза может быть принята, хотя на самом деле она не верна. Допустим, например, что <tex>H_0</tex> = «распределение нормально»; <tex>T(X^m)</tex> = «[[коэффициент асимметрии]]»; тогда выборка с любым симметричным распределением будет признана нормальной. Чтобы избегать таких ошибок, следует пользоваться более [[Мощность критерия|мощными критериями]]. | ||
- | == Альтернативная методика на основе | + | == Альтернативная методика на основе p-value == |
Вместо того, чтобы задавать уровень значимости из априорных соображений, можно переводить значение статистики критерия <tex>T</tex> в вероятностные единицы — так называемую [[пи-величина|пи-величину]] (p-value). | Вместо того, чтобы задавать уровень значимости из априорных соображений, можно переводить значение статистики критерия <tex>T</tex> в вероятностные единицы — так называемую [[пи-величина|пи-величину]] (p-value). | ||
Строка 105: | Строка 105: | ||
'''Несмещённый критерий''': | '''Несмещённый критерий''': | ||
- | <tex>1-\beta(H) > \alpha</tex> для всех альтернатив <tex>H</tex>. | + | <tex>1-\beta(H) \geq \alpha</tex> |
+ | для всех альтернатив <tex>H</tex> | ||
+ | или, что то же самое, | ||
+ | <tex>\mathbb{P}\left\{ T\in\Omega_\alpha | H \right\} \geq \mathbb{P}\left\{ T\in\Omega_\alpha | H_0 \right\}</tex> | ||
+ | для всех альтернатив <tex>H</tex>. | ||
'''Состоятельный критерий''': | '''Состоятельный критерий''': |
Версия 17:09, 3 сентября 2008
Статистическая гипотеза (statistical hypothesys) — это определённое предположение о распределении вероятностей, лежащем в основе наблюдаемой выборки данных.
Проверка статистической гипотезы (testing statistical hypotheses) — это процесс принятия решения о том, противоречит ли рассматриваемая статистическая гипотеза наблюдаемой выборке данных.
Статистический тест или статистический критерий — строгое математическое правило, по которому принимается или отвергается статистическая гипотеза.
Методика проверки статистических гипотез
Пусть задана случайная выборка — последовательность объектов из множества . Предполагается, что на множестве существует некоторая неизвестная вероятностная мера .
Методика состоит в следующем.
- Формулируется нулевая гипотеза о распределении вероятностей на множестве . Гипотеза формулируется исходя из требований прикладной задачи. Чаще всего рассматриваются две гипотезы — основная или нулевая и альтернативная . Иногда альтернатива не формулируется в явном виде; тогда предполагается, что означает «не ». Иногда рассматривается сразу несколько альтернатив. В математической статистике хорошо изучено несколько десятков «наиболее часто встречающихся» типов гипотез, и известны ещё сотни специальных вариантов и разновидностей. Примеры приводятся ниже.
- Задаётся некоторая статистика (функция выборки) , для которой в условиях справедливости гипотезы выводится функция распределения и/или плотность распределения . Вопрос о том, какую статистику надо взять для проверки той или иной гипотезы, часто не имеет однозначного ответа. Есть целый ряд требований, которым должна удовлетворять «хорошая» статистика . Вывод функции распределения при заданных и является строгой математической задачей, которая решается методами теории вероятностей; в справочниках приводятся готовые формулы для ; в статистических пакетах имеются готовые вычислительные процедуры.
- Фиксируется уровень значимости — допустимая для данной задачи вероятность ошибки первого рода, то есть того, что гипотеза на самом деле верна, но будет отвергнута процедурой проверки. Это должно быть достаточно малое число . На практике часто полагают .
- На множестве допустимых значений статистики выделяется критическое множество наименее вероятных значений статистики , такое, что . Вычисление границ критического множества как функции от уровня значимости является строгой математической задачей, которая в большинстве практических случаев имеет готовое простое решение.
- Собственно статистический тест (статистический критерий) заключается в проверке условия:
- если , то делается вывод «данные противоречат нулевой гипотезе при уровне значимости ». Гипотеза отвергается.
- если , то делается вывод «данные не противоречат нулевой гипотезе при уровне значимости ». Гипотеза принимается.
Итак, статистический критерий определяется статистикой и критическим множеством , которое зависит от уровня значимости .
Замечание. Если данные не противоречат нулевой гипотезе, это ещё не значит, что гипотеза верна. Тому есть две причины.
- По мере увеличения длины выборки нулевая гипотеза может сначала приниматься, но потом выявятся более тонкие несоответствия данных гипотезе, и она будет отвергнута. То есть многое зависит от объёма данных; если данных не хватает, можно принять даже самую неправдоподобную гипотезу.
- Выбранная статистика может отражать не всю информацию, содержащуюся в гипотезе . В таком случае увеличивается вероятность ошибки второго рода — нулевая гипотеза может быть принята, хотя на самом деле она не верна. Допустим, например, что = «распределение нормально»; = «коэффициент асимметрии»; тогда выборка с любым симметричным распределением будет признана нормальной. Чтобы избегать таких ошибок, следует пользоваться более мощными критериями.
Альтернативная методика на основе p-value
Вместо того, чтобы задавать уровень значимости из априорных соображений, можно переводить значение статистики критерия в вероятностные единицы — так называемую пи-величину (p-value).
Пи-величина (p-value) — это наименьшая величина уровня значимости, при которой нулевая гипотеза отвергается для данного значения статистики критерия .
где — критическое множество.
Другая интерпретация: пи-величина — это вероятность, с которой (при условии истинности нулевой гипотезы) могла бы реализоваться наблюдаемая выборка, или любая другая выборка с ещё менее вероятным значением статистики .
Если пи-величина достаточно мала (близка к нулю), нулевая гипотеза отвергается. В частности, её можно сравнивать с фиксированным уровнем значимости; тогда данная методика эквивалентна использованию априорного уровня значимости .
Типы критической области
Обозначим через значение, которое находится из уравнения , где — функция распределения статистики . Если функция распределения непрерывная строго монотонная, то есть обратная к ней функция:
- .
Значение называется также -квантилью распределения .
На практике, как правило, используются статистики с унимодальной (имеющей форму пика) плотностью распределения. Критические области (наименее вероятные значения статистики) соответствуют «хвостам» этого распределения. Поэтому чаще всего возникают критические области одного из трёх типов:
- Левосторонняя критическая область:
- определяется интервалом .
- пи-величина:
- Правосторонняя критическая область:
- определяется интервалом .
- пи-величина:
- Двусторонняя критическая область:
- определяется двумя интервалами
- пи-величина:
Ошибки первого и второго рода
- Ошибка первого рода или «ложная тревога» (англ. type I error, error, false positive) — когда нулевая гипотеза отвергается, хотя на самом деле она верна. Вероятность ошибки первого рода:
- Ошибка второго рода или «пропуск цели» (англ. type II error, error, false negative) — когда нулевая гипотеза принимается, хотя на самом деле она не верна. Вероятность ошибки второго рода:
Верная гипотеза | |||
---|---|---|---|
Результат применения критерия | верно принята | неверно отвергнута (Ошибка второго рода) | |
неверно отвергнута (Ошибка первого рода) | верно принята |
Свойства статистических критериев
Мощность критерия: — вероятность отклонить гипотезу , если на самом деле верна альтернативная гипотеза . Мощность критерия является числовой функцией от альтернативной гипотезы .
Несмещённый критерий: для всех альтернатив или, что то же самое, для всех альтернатив .
Состоятельный критерий: при для всех альтернатив .
Равномерно более мощный критерий. Говорят, что критерий с мощностью является равномерно более мощным, чем критерий с мощностью , если выполняются два условия:
- ;
- для всех рассматриваемых альтернатив , причём хотя бы для одной альтернативы неравенство строгое.
Типы статистических гипотез
- Простая гипотеза однозначно определяет функцию распределения на множестве . Простые гипотезы имеют узкую область применения, ограниченную критериями согласия (см. ниже). Для простых гипотез известен общий вид равномерно более мощного критерия (Теорема Неймана-Пирсона).
- Сложная гипотеза утверждает принадлежность распределения к некоторому множеству распределений на . Для сложных гипотез вывести равномерно более мощный критерий удаётся лишь в некоторых специальных случаях.
Типы статистических критериев
В зависимости от проверяемой нулевой гипотезы статистические критерии делятся на группы, перечисленные ниже по разделам.
Наряду с нулевой гипотезой, которая принимается или отвергается по результату анализа выборки, статистические критерии могут опираться на дополнительные предположения, которые априори предпологаются выполненными.
- Параметрические критерии предполагают, что выборка порождена распределением из заданного параметрического семейства. В частности, существует много критериев, предназначенных для анализа выборок из нормального распределения. Преимущество этих критериев в том, что они более мощные. Если выборка действительно удовлетворяет дополнительным предположениям, то параметрические критерии дают более точные результаты. Однако если выборка им не удовлетворяет, то вероятность ошибок (как I, так и II рода) может резко возрасти. Прежде чем применять такие критерии, необходимо убедиться, что выборока удовлетворяет дополнительным предположениям. Гипотезы о виде распределения проверяются с помощью критериев согласия.
- Непараметрические критерии не опираются на дополнительные предположения о распределении. В частности, к этому типу критериев относится большинство ранговых критериев.
Критерии согласия
Критерии согласия проверяют, согласуется ли заданная выборка с заданным фиксированным распределением, с заданным параметрическим семейством распределений, или с другой выборкой.
- Критерий Колмогорова-Смирнова
- Критерий хи-квадрат (Пирсона)
- Критерий омега-квадрат (фон Мизеса)
Критерии сдвига
Специальный случай двухвыборочных критериев согласия. Проверяется гипотеза сдвига, согласно которой распределения двух выборок имеют одинаковую форму и отличаются только сдвигом на константу.
Критерии нормальности
Критерии нормальности — это выделенный частный случай критериев согласия. Нормально распределённые величины часто встречаются в прикладных задачах, что обусловлено действием закона больших чисел. Если про выборки заранее известно, что они подчиняются нормальному распределению, то к ним становится возможно применять более мощные параметрические критерии. Проверка нормальность часто выполняется на первом шаге анализа выборки, чтобы решить, использовать далее параметрические методы или непараметрические. В справочнике А. И. Кобзаря приведена сравнительная таблица мощности для 21 критерия нормальности.
Критерии однородности
Критерии однородности предназначены для проверки нулевой гипотезы о том, что две выборки (или несколько) взяты из одного распределения, либо их распределения имеют одинаковые значения математического ожидания, дисперсии, или других параметров.
Критерии симметричности
Критерии симметричности позволяют проверить симметричность распределения.
- Одновыборочный критерий Уилкоксона и его модификации: критерий Антилла-Кёрстинга-Цуккини, критерий Бхаттачария-Гаствирса-Райта
- Критерий знаков
- Коэффициент асимметрии
Критерии тренда, стационарности и случайности
Критерии тренда и случайности предназначены для проверки нулевой гипотезы об отсутствии зависимости между выборочными данными и номером наблюдения в выборке. Они часто применяются в анализе временных рядов, в частности, при анализе регрессионных остатков.
Критерии выбросов
Критерии дисперсионного анализа
Критерии корреляционного анализа
Критерии регрессионного анализа
Литература
- Вероятность и математическая статистика: Энциклопедия / Под ред. Ю.В.Прохорова. — М.: Большая российская энциклопедия, 2003. — 912 с.
- Кобзарь А. И. Прикладная математическая статистика. Справочник для инженеров и научных работников. — М.: Физматлит, 2006. — 816 с.
Ссылки
- Statistical hypothesis testing — статья в англоязычной Википедии.