Критерий знаков

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Новая: '''Критерий знаков''' (sign test) — статистический критерий, позволяющий проверить [[Нулевая гипотеза|нул...)
м (рокировка)
Строка 41: Строка 41:
== Гипотеза отсутствия сдвига (эффекта обработки) ==
== Гипотеза отсутствия сдвига (эффекта обработки) ==
 +
'''Пример задачи.'''
 +
Первая выборка — это значения некоторой характеристики состояния пациентов, записанные ''до'' лечения.
 +
Вторая выборка — это значения ''той же'' характеристики состояния ''тех же'' пациентов, записанные ''после'' лечения.
 +
Порядок элементов (в данном случае пациентов) в выборках и объёмы выборок обязаны совпадать.
 +
Такие выборки называются ''связными''.
 +
Требуется выяснить, имеется ли значимое отличие в состоянии пациентов до и после лечения, или различия чисто случайны.
 +
Заданы две выборки одинаковой длины <tex>x^m = (x_1,\ldots,x_m),\; x_i \in \mathbb{R};\;\; y^m = (y_1,\ldots,y_m),\; y_i \in \mathbb{R}</tex>.
Заданы две выборки одинаковой длины <tex>x^m = (x_1,\ldots,x_m),\; x_i \in \mathbb{R};\;\; y^m = (y_1,\ldots,y_m),\; y_i \in \mathbb{R}</tex>.
Строка 54: Строка 61:
<tex> x_i = y_i </tex>,
<tex> x_i = y_i </tex>,
то их следует исключить из выборки, уменьшив число наблюдений.
то их следует исключить из выборки, уменьшив число наблюдений.
-
 
-
'''Пример задачи.'''
 
-
Первая выборка — это значения некоторой характеристики состояния пациентов, записанные ''до'' лечения.
 
-
Вторая выборка — это значения ''той же'' характеристики состояния ''тех же'' пациентов, записанные ''после'' лечения.
 
-
Объёмы обеих выборок обязаны совпадать; более того, порядок элементов (в данном случае пациентов) в выборках также обязан совпадать.
 
-
Такие выборки называются ''связными''.
 
-
Требуется выяснить, имеется ли значимое отличие в состоянии пациентов до и после лечения, или различия чисто случайны.
 
== Литература ==
== Литература ==

Версия 18:08, 2 сентября 2008

Критерий знаков (sign test) — статистический критерий, позволяющий проверить нулевую гипотезу, что выборка подчиняется биномиальному распределению с параметром p=1/2. Критерий знаков можно использовать как непараметрический статистический критерий для проверки гипотезы равенства медианы заданному значению (в частности, нулю), а также отсутствия сдвига (отсутствия эффекта обработки) в двух связных выборках. Он также позволяет проверять гипотезу симметричности распределения, однако для этого существуют и более мощные критерии — одновыборочный критерий Уилкоксона и его модификации.

Содержание

Гипотеза биномиальности

Пример задачи. В серии из m подбрасываний монеты k раз выпал орёл. Можно ли считать монету симметричной?

Задана бинарная простая выборка b^m = (b_1,\ldots,b_m),\; b_i \in \{0,1\}.

Нулевая гипотеза H_0:\; \mathbb{P} \{ b=1 \} = 1/2.

Статистика критерия:

k = \sum_{i=1}^m b_i.

Критерий (при уровне значимости \alpha):

  • против альтернативы H_1:\; \mathbb{P} \{ b=1 \} \neq 1/2
если  \mathrm{Bin}_p(m,k) \not\in \left[ \alpha/2,\, 1-\alpha/2 \right] , то нулевая гипотеза отвергается;
  • против альтернативы H'_1:\; \mathbb{P} \{ b=1 \} < 1/2
если  \mathrm{Bin}_p(m,k) < \alpha , то нулевая гипотеза отвергается;
  • против альтернативы H''_1:\; \mathbb{P} \{ b=1 \} > 1/2
если  \mathrm{Bin}_p(m,k) > 1-\alpha , то нулевая гипотеза отвергается;

где  \mathrm{Bin}_p(m,k) = 2^{-m}\sum_{i=1}^k C_m^k  — левый хвост биномиального распределения с параметром p=1/2.

Значение  \mathrm{Bin}_p(m,k) является пи-величиной (p-value) данного критерия относительно альтернативы H'_1.

Гипотеза равенства медианы заданному значению

Задана простая выборка x^m = (x_1,\ldots,x_m),\; x_i \in \mathbb{R}.

Нулевая гипотеза H_0:\; \mathbb{P} \{ x<a \} = 1/2, где a — заданное значение.

Задача сводится к предыдущей, если перейти к бинарной выборке b_i = \left[ x_i<a \right],\; i=1,\ldots,m. Если в выборке имеются значения  x_i = a , то их следует исключить из выборки, уменьшив число наблюдений.

Гипотеза отсутствия сдвига (эффекта обработки)

Пример задачи. Первая выборка — это значения некоторой характеристики состояния пациентов, записанные до лечения. Вторая выборка — это значения той же характеристики состояния тех же пациентов, записанные после лечения. Порядок элементов (в данном случае пациентов) в выборках и объёмы выборок обязаны совпадать. Такие выборки называются связными. Требуется выяснить, имеется ли значимое отличие в состоянии пациентов до и после лечения, или различия чисто случайны.

Заданы две выборки одинаковой длины x^m = (x_1,\ldots,x_m),\; x_i \in \mathbb{R};\;\; y^m = (y_1,\ldots,y_m),\; y_i \in \mathbb{R}.

Дополнительные предположения:

  • обе выборки простые;
  • выборки связные, то есть элементы x_i,\: y_i соответствуют одному и тому же объекту, но измерения сделаны в разные моменты (например, до и после обработки).

Нулевая гипотеза H_0:\; \mathbb{P} \{ x<y \} = 1/2.

Задача сводится к предыдущей, если перейти к бинарной выборке b_i = \left[ x_i<y_i \right],\; i=1,\ldots,m. Если в выборке имеются случаи  x_i = y_i , то их следует исключить из выборки, уменьшив число наблюдений.

Литература

  1. Вероятность и математическая статистика: Энциклопедия / Под ред. Ю.В.Прохорова. — М.: Большая российская энциклопедия, 2003. — 912 с.
  2. Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006. — 816 с.

Ссылки

Личные инструменты