Проверка статистических гипотез

Материал из MachineLearning.

Версия от 19:18, 6 августа 2008; Vokov (Обсуждение | вклад)
(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)
Перейти к: навигация, поиск

Содержание

Статистическая гипотеза (statistical hypothesys) — определённое предположение о распределении вероятностей, лежащем в основе наблюдаемой выборки данных.

Проверка статистических гипотез (testing statistical hypotheses) — методология принятия решений о том, что рассматриваемая статистическая гипотеза не противоречит наблюдаемой выборке данных. Чаще всего рассматриваются две гипотезы — основная или нулевая H_0 и альтернативная H_1. Иногда альтернатива не формулируется в явном виде; тогда предполагается, что H_1 означает «не H_0». Иногда рассматривается сразу несколько альтернатив.

Методология

Пусть задана случайная выборка x^m = (x_1,\ldots,x_m) — последовательность m объектов из множества X, на котором существует (но не известна) вероятностная мера \mathbb{P}.

Общая методика состоит в следующем.

  1. Формулируется нулевая гипотеза H_0 о распределении вероятностей на множестве X. Собственно, это именно то, что мы собираемся проверить. Гипотеза формулируется исходя из требований прикладной задачи. В математической статистике хорошо изучено несколько десятков «наиболее часто встречающихся» типов гипотез, и известны ещё сотни специальных вариантов и разновидностей.
  2. Задаётся некоторая статистика T:\: X^m \to \mathbb{R}, для которой в условиях справедливости гипотезы H_0 выводится функция распределения F(T) и/или плотность распределения p(T). Вопрос о том, какую статистику надо взять для проверки той или иной гипотезы, часто не имеет однозначного ответа. Есть целый ряд требований, предъявляемых к «хорошей» статистике T. Задача получения функции распределения F(T) при заданных H_0 и T является строго поставленной математической задачей, которая решается методами теории вероятностей; в справочниках приводятся готовые формулы; в статистических пакетах имеются готовые вычислительные процедуры.
  3. Фиксируется уровень значимости \alpha — число из отрезка [0,1], которое можно интерпретировать как «достаточно малую вероятность». Её выбирают исходя из априорных соображений риска, допустимого для принимаемого решения в данной прикладной задаче. Часто полагают \alpha=0.05.
  4. На множестве допустимых значений статистики T выделяется критическое множество \Omega наименее вероятных значений T такое, что \Prob\{T\in\Omega\} = \alpha. Вычисление вида критического множества также является строгой математической задачей, решение которой для большинства практических случаев известно.
  5. Статистический тест


Статья в настоящий момент дорабатывается.
К.В.Воронцов 23:18, 6 августа 2008 (MSD)


Литература

  1. Вероятность и математическая статистика: Энциклопедия / Под ред. Ю.В.Прохорова. — М.: Большая российская энциклопедия, 2003. — 912 с.
  2. Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006.
Личные инструменты