Участник:Василий Ломакин/Критерий Уилкоксона двухвыборочный
Материал из MachineLearning.
Строка 7: | Строка 7: | ||
Заданы две выборки <tex>x^m = (x_1,\ldots,x_m),\; x_i \in \mathbb{R};\;\; y^n = (y_1,\ldots,y_n),\; y_i \in \mathbb{R};\; m \le n,</tex> в противном случае следует поменять выборки местами. | Заданы две выборки <tex>x^m = (x_1,\ldots,x_m),\; x_i \in \mathbb{R};\;\; y^n = (y_1,\ldots,y_n),\; y_i \in \mathbb{R};\; m \le n,</tex> в противном случае следует поменять выборки местами. | ||
- | ''' | + | '''Дополнительное предположение:''' обе выборки [[простая выборка|простые]], объединённая выборка [[независимая выборка|независима]]; |
- | + | ||
'''[[Нулевая гипотеза]]''' <tex>H_0:\; </tex> обе выборки имеют одинаковое распеределение, то есть извлечены из одной генеральной совокупности. Следствием этого является равенство средних. | '''[[Нулевая гипотеза]]''' <tex>H_0:\; </tex> обе выборки имеют одинаковое распеределение, то есть извлечены из одной генеральной совокупности. Следствием этого является равенство средних. | ||
- | ''' | + | '''Вычисление статистики критерия:''' |
# Построить общий вариационный ряд объединённой выборки <tex>x^{(1)} \leq \cdots \leq x^{(m+n)}</tex> и найти ранги <tex>r(x_i),\; r(y_i)</tex> всех элементов обеих выборок в общем вариационном ряду. | # Построить общий вариационный ряд объединённой выборки <tex>x^{(1)} \leq \cdots \leq x^{(m+n)}</tex> и найти ранги <tex>r(x_i),\; r(y_i)</tex> всех элементов обеих выборок в общем вариационном ряду. | ||
# Рассчитать суммы рангов, соответствующих обеим выборкам: | # Рассчитать суммы рангов, соответствующих обеим выборкам: | ||
- | : <tex>R_x = \sum_{i=1}^m r(x_i);</tex> | + | #:<tex>R_x = \sum_{i=1}^m r(x_i);</tex> |
- | : <tex>R_y = \sum_{i=1}^n r(y_i);</tex> | + | #:<tex>R_y = \sum_{i=1}^n r(y_i);</tex> |
# Если размеры выборок совпадают (<tex>m=n</tex>), то значение статистики <tex>W</tex> будет равняется одной из сумм рангов <tex>R_x</tex> или <tex>R_y</tex> (любой). | # Если размеры выборок совпадают (<tex>m=n</tex>), то значение статистики <tex>W</tex> будет равняется одной из сумм рангов <tex>R_x</tex> или <tex>R_y</tex> (любой). | ||
'''Критерий''' (при [[уровень значимости|уровне значимости]] <tex>\alpha</tex>): | '''Критерий''' (при [[уровень значимости|уровне значимости]] <tex>\alpha</tex>): | ||
- | + | Против альтернативы <tex>H_1:\;</tex> ???? | |
- | :если <tex>W \notin \left[ W_{\alpha/2},\,W_{1-\alpha/2} \right]</tex> , то нулевая гипотеза отвергается. Здесь <tex>W_{\alpha}</tex> есть <tex>\alpha</tex>-квантиль табличного распределения Уилкоксона с параметрами <tex>m,\,n</tex>. | + | :если <tex>W \notin \left[ W_{\alpha/2},\,W_{1-\alpha/2} \right]</tex> , то нулевая гипотеза отвергается. Здесь <tex>W_{\alpha}</tex> есть <tex>\alpha</tex>-[[квантиль]] табличного распределения Уилкоксона с параметрами <tex>m,\,n</tex>. |
'''Асимптотический критерий''': | '''Асимптотический критерий''': | ||
Строка 29: | Строка 28: | ||
Рассмотрим нормированную и центрированную статистика Уилкоксона: | Рассмотрим нормированную и центрированную статистика Уилкоксона: | ||
- | :<tex> | + | :<tex>\tilde W = \frac{2W - m(m + n + 1) + 1}{sqrt{\frac{mn(m + n + 1)}{3}}}</tex>; |
- | <tex> | + | <tex>\tilde W</tex> асимптотически имеет стандартное нормальное распределение. Нулевая гипотеза (против альтернативы <tex>H_1</tex>) отвергается, если <tex> |\tilde W| > \Phi_{1-\alpha/2} </tex>. <tex>\Phi_{\alpha}</tex> есть <tex>\alpha</tex>-[[квантиль]] стандартного нормального распределения. |
- | + | Приближение можно использовать, если размер хотя бы одной из выборок превышает 25. Если размеры выборок равны, то данная аппроксимация хорошо работает до <tex>m = n = 8</tex>. | |
- | : | + | При наличии связок необходимо учесть их с помощью поправки. Выражение под корнем в знаменателе необходимо заменить на следующее: |
- | : | + | :<tex>\frac{mn}{12}(m + n + 1) - \frac{\sum^k_{i = 1}t_i(t_i^2-1)}{(m + n)(m + n + 1)},</tex> |
+ | :где <tex>k</tex> - количество только тех связок, в которые входят ранги как одной, так и другой выборок, <tex>t_1, \ldots, t_k</tex> - их размеры. | ||
== Свойства и границы применимости критерия == | == Свойства и границы применимости критерия == |
Версия 23:05, 11 декабря 2009
Критерий Уилкоксона двухвыборочный — непараметрический статистический критерий, используемый для проверки гипотезы о равенстве средних двух независимых выборок. Выборки взяты из закона распределения, отличного от нормального, либо данные измерены с использованием нечисловой шкалы. Метод следует использовать, когда нет информации о дисперсии выборок. В случае равных дисперсий следует применять более мощный U-критерий Манна-Уитни. Имеется аналог критерия Уилкоксона для связанных повторных наблюдений.
Содержание |
Пример задачи
Описание критерия
Заданы две выборки в противном случае следует поменять выборки местами.
Дополнительное предположение: обе выборки простые, объединённая выборка независима;
Нулевая гипотеза обе выборки имеют одинаковое распеределение, то есть извлечены из одной генеральной совокупности. Следствием этого является равенство средних.
Вычисление статистики критерия:
- Построить общий вариационный ряд объединённой выборки и найти ранги всех элементов обеих выборок в общем вариационном ряду.
- Рассчитать суммы рангов, соответствующих обеим выборкам:
- Если размеры выборок совпадают (), то значение статистики будет равняется одной из сумм рангов или (любой).
Критерий (при уровне значимости ):
Против альтернативы ????
- если , то нулевая гипотеза отвергается. Здесь есть -квантиль табличного распределения Уилкоксона с параметрами .
Асимптотический критерий:
Рассмотрим нормированную и центрированную статистика Уилкоксона:
- ;
асимптотически имеет стандартное нормальное распределение. Нулевая гипотеза (против альтернативы ) отвергается, если . есть -квантиль стандартного нормального распределения.
Приближение можно использовать, если размер хотя бы одной из выборок превышает 25. Если размеры выборок равны, то данная аппроксимация хорошо работает до .
При наличии связок необходимо учесть их с помощью поправки. Выражение под корнем в знаменателе необходимо заменить на следующее:
- где - количество только тех связок, в которые входят ранги как одной, так и другой выборок, - их размеры.
Свойства и границы применимости критерия
История
Литература
- Лагутин М. Б. Наглядная математическая статистика. В двух томах. — М.: П-центр, 2003. — 204-209 с.
- Лапач С. Н. , Чубенко А. В., Бабич П. Н. Статистика в науке и бизнесе. — Киев: Морион, 2002. — 160-164 с.
Ссылки
- Проверка статистических гипотез — о методологии проверки статистических гипотез.