Участник:Василий Ломакин/Критерий Уилкоксона двухвыборочный

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
Строка 7: Строка 7:
Заданы две выборки <tex>x^m = (x_1,\ldots,x_m),\; x_i \in \mathbb{R};\;\; y^n = (y_1,\ldots,y_n),\; y_i \in \mathbb{R};\; m \le n,</tex> в противном случае следует поменять выборки местами.
Заданы две выборки <tex>x^m = (x_1,\ldots,x_m),\; x_i \in \mathbb{R};\;\; y^n = (y_1,\ldots,y_n),\; y_i \in \mathbb{R};\; m \le n,</tex> в противном случае следует поменять выборки местами.
-
'''Дополнительные предположения:'''
+
'''Дополнительное предположение:''' обе выборки [[простая выборка|простые]], объединённая выборка [[независимая выборка|независима]];
-
* обе выборки [[простая выборка|простые]], объединённая выборка [[независимая выборка|независима]];
+
'''[[Нулевая гипотеза]]''' <tex>H_0:\; </tex> обе выборки имеют одинаковое распеределение, то есть извлечены из одной генеральной совокупности. Следствием этого является равенство средних.
'''[[Нулевая гипотеза]]''' <tex>H_0:\; </tex> обе выборки имеют одинаковое распеределение, то есть извлечены из одной генеральной совокупности. Следствием этого является равенство средних.
-
'''Статистика критерия:'''
+
'''Вычисление статистики критерия:'''
# Построить общий вариационный ряд объединённой выборки <tex>x^{(1)} \leq \cdots \leq x^{(m+n)}</tex> и найти ранги <tex>r(x_i),\; r(y_i)</tex> всех элементов обеих выборок в общем вариационном ряду.
# Построить общий вариационный ряд объединённой выборки <tex>x^{(1)} \leq \cdots \leq x^{(m+n)}</tex> и найти ранги <tex>r(x_i),\; r(y_i)</tex> всех элементов обеих выборок в общем вариационном ряду.
# Рассчитать суммы рангов, соответствующих обеим выборкам:
# Рассчитать суммы рангов, соответствующих обеим выборкам:
-
: <tex>R_x = \sum_{i=1}^m r(x_i);</tex>
+
#:<tex>R_x = \sum_{i=1}^m r(x_i);</tex>
-
: <tex>R_y = \sum_{i=1}^n r(y_i);</tex>
+
#:<tex>R_y = \sum_{i=1}^n r(y_i);</tex>
# Если размеры выборок совпадают (<tex>m=n</tex>), то значение статистики <tex>W</tex> будет равняется одной из сумм рангов <tex>R_x</tex> или <tex>R_y</tex> (любой).
# Если размеры выборок совпадают (<tex>m=n</tex>), то значение статистики <tex>W</tex> будет равняется одной из сумм рангов <tex>R_x</tex> или <tex>R_y</tex> (любой).
'''Критерий''' (при [[уровень значимости|уровне значимости]] <tex>\alpha</tex>):
'''Критерий''' (при [[уровень значимости|уровне значимости]] <tex>\alpha</tex>):
-
* против альтернативы <tex>H_1:\;</tex> ????
+
Против альтернативы <tex>H_1:\;</tex> ????
-
:если <tex>W \notin \left[ W_{\alpha/2},\,W_{1-\alpha/2} \right]</tex> , то нулевая гипотеза отвергается. Здесь <tex>W_{\alpha}</tex> есть <tex>\alpha</tex>-квантиль табличного распределения Уилкоксона с параметрами <tex>m,\,n</tex>.
+
:если <tex>W \notin \left[ W_{\alpha/2},\,W_{1-\alpha/2} \right]</tex> , то нулевая гипотеза отвергается. Здесь <tex>W_{\alpha}</tex> есть <tex>\alpha</tex>-[[квантиль]] табличного распределения Уилкоксона с параметрами <tex>m,\,n</tex>.
'''Асимптотический критерий''':
'''Асимптотический критерий''':
Строка 29: Строка 28:
Рассмотрим нормированную и центрированную статистика Уилкоксона:
Рассмотрим нормированную и центрированную статистика Уилкоксона:
-
:<tex>T = \frac{R - \frac{N(N+1)}{4}}{\sqrt{\frac{N(N+1)(2N+1)}{24}}}</tex>;
+
:<tex>\tilde W = \frac{2W - m(m + n + 1) + 1}{sqrt{\frac{mn(m + n + 1)}{3}}}</tex>;
-
<tex>T</tex> асимптотически имеет стандартное нормальное распределение при <tex>N \ge 20</tex>.
+
<tex>\tilde W</tex> асимптотически имеет стандартное нормальное распределение. Нулевая гипотеза (против альтернативы <tex>H_1</tex>) отвергается, если <tex> |\tilde W| > \Phi_{1-\alpha/2} </tex>. <tex>\Phi_{\alpha}</tex> есть <tex>\alpha</tex>-[[квантиль]] стандартного нормального распределения.
-
При наличии связок необходимо учесть их с помощью поправки. Выражение под корнем в знаменателе необходимо заменить на следующее:
+
Приближение можно использовать, если размер хотя бы одной из выборок превышает 25. Если размеры выборок равны, то данная аппроксимация хорошо работает до <tex>m = n = 8</tex>.
-
:<tex>\frac{N(N+1)(2N+1) - \frac{\sum_{j=1}^{g}{t_j(t_j-1)(t_j+1)}}{2}}{24},</tex>
+
При наличии связок необходимо учесть их с помощью поправки. Выражение под корнем в знаменателе необходимо заменить на следующее:
-
:где <tex>g</tex> - количество связок, <tex>t_1, \ldots, t_g</tex> - их размеры.
+
:<tex>\frac{mn}{12}(m + n + 1) - \frac{\sum^k_{i = 1}t_i(t_i^2-1)}{(m + n)(m + n + 1)},</tex>
 +
:где <tex>k</tex> - количество только тех связок, в которые входят ранги как одной, так и другой выборок, <tex>t_1, \ldots, t_k</tex> - их размеры.
== Свойства и границы применимости критерия ==
== Свойства и границы применимости критерия ==

Версия 23:05, 11 декабря 2009

Критерий Уилкоксона двухвыборочныйнепараметрический статистический критерий, используемый для проверки гипотезы о равенстве средних двух независимых выборок. Выборки взяты из закона распределения, отличного от нормального, либо данные измерены с использованием нечисловой шкалы. Метод следует использовать, когда нет информации о дисперсии выборок. В случае равных дисперсий следует применять более мощный U-критерий Манна-Уитни. Имеется аналог критерия Уилкоксона для связанных повторных наблюдений.

Содержание

Пример задачи

Описание критерия

Заданы две выборки x^m = (x_1,\ldots,x_m),\; x_i \in \mathbb{R};\;\; y^n = (y_1,\ldots,y_n),\; y_i \in \mathbb{R};\; m \le n, в противном случае следует поменять выборки местами.

Дополнительное предположение: обе выборки простые, объединённая выборка независима;

Нулевая гипотеза H_0:\; обе выборки имеют одинаковое распеределение, то есть извлечены из одной генеральной совокупности. Следствием этого является равенство средних.

Вычисление статистики критерия:

  1. Построить общий вариационный ряд объединённой выборки x^{(1)} \leq \cdots \leq x^{(m+n)} и найти ранги r(x_i),\; r(y_i) всех элементов обеих выборок в общем вариационном ряду.
  2. Рассчитать суммы рангов, соответствующих обеим выборкам:
    R_x = \sum_{i=1}^m r(x_i);
    R_y = \sum_{i=1}^n r(y_i);
  3. Если размеры выборок совпадают (m=n), то значение статистики W будет равняется одной из сумм рангов R_x или R_y (любой).

Критерий (при уровне значимости \alpha):

Против альтернативы H_1:\; ????

если W \notin \left[ W_{\alpha/2},\,W_{1-\alpha/2} \right] , то нулевая гипотеза отвергается. Здесь W_{\alpha} есть \alpha-квантиль табличного распределения Уилкоксона с параметрами m,\,n.

Асимптотический критерий:

Рассмотрим нормированную и центрированную статистика Уилкоксона:

\tilde W = \frac{2W - m(m + n + 1) + 1}{sqrt{\frac{mn(m + n + 1)}{3}}};

\tilde W асимптотически имеет стандартное нормальное распределение. Нулевая гипотеза (против альтернативы H_1) отвергается, если  |\tilde W| > \Phi_{1-\alpha/2} . \Phi_{\alpha} есть \alpha-квантиль стандартного нормального распределения.

Приближение можно использовать, если размер хотя бы одной из выборок превышает 25. Если размеры выборок равны, то данная аппроксимация хорошо работает до m = n = 8.

При наличии связок необходимо учесть их с помощью поправки. Выражение под корнем в знаменателе необходимо заменить на следующее:

\frac{mn}{12}(m + n + 1) - \frac{\sum^k_{i = 1}t_i(t_i^2-1)}{(m + n)(m + n + 1)},
где k - количество только тех связок, в которые входят ранги как одной, так и другой выборок, t_1, \ldots, t_k - их размеры.

Свойства и границы применимости критерия

История

Литература

  1. Лагутин М. Б. Наглядная математическая статистика. В двух томах. — М.: П-центр, 2003. — 204-209 с.
  2. Лапач С. Н. , Чубенко А. В., Бабич П. Н. Статистика в науке и бизнесе. — Киев: Морион, 2002. — 160-164 с.

Ссылки

Личные инструменты