Участник:Василий Ломакин/Критерий Уилкоксона двухвыборочный
Материал из MachineLearning.
Строка 1: | Строка 1: | ||
- | '''Критерий Уилкоксона (Вилкоксона) двухвыборочный''' — [[непараметрический статистический критерий]], используемый для | + | '''Критерий Уилкоксона (Вилкоксона) двухвыборочный''' — [[непараметрический статистический критерий]], используемый для оценки различий между двумя выборками, взятыми из закона распределения, отличного от нормального, либо измеренными с использованием [[Теория измерений|порядковой шкалы]]. Имеется [[Критерий_Уилкоксона_для_связных_выборок|аналог]] критерия Уилкоксона для связанных повторных наблюдений. |
== Пример задачи == | == Пример задачи == | ||
- | + | ||
+ | Задача - сравнить две методики подготовки роженицы к родам. Сравнивается эффективность по оценке состояния новорожденного в баллах (шкала является [[Теория измерений|порядковой]]). | ||
== Описание критерия == | == Описание критерия == | ||
Строка 10: | Строка 11: | ||
'''Дополнительное предположение:''' обе выборки [[простая выборка|простые]], объединённая выборка [[независимая выборка|независима]]; | '''Дополнительное предположение:''' обе выборки [[простая выборка|простые]], объединённая выборка [[независимая выборка|независима]]; | ||
- | '''[[Нулевая гипотеза]]''' <tex>H_0:\; </tex> | + | '''[[Нулевая гипотеза]]''' <tex>H_0:\; \mathbb{P} \{ x<y \} = 1/2. </tex> |
'''Вычисление статистики критерия:''' | '''Вычисление статистики критерия:''' | ||
Строка 17: | Строка 18: | ||
#:<tex>R_x = \sum_{i=1}^m r(x_i);</tex> | #:<tex>R_x = \sum_{i=1}^m r(x_i);</tex> | ||
#:<tex>R_y = \sum_{i=1}^n r(y_i);</tex> | #:<tex>R_y = \sum_{i=1}^n r(y_i);</tex> | ||
- | # Если размеры выборок совпадают (<tex>m=n</tex>), то значение статистики <tex>W</tex> будет равняется одной из сумм рангов <tex>R_x</tex> или <tex>R_y</tex> (любой). | + | # Если размеры выборок совпадают (<tex>m=n</tex>), то значение статистики <tex>W</tex> будет равняется одной из сумм рангов <tex>R_x</tex> или <tex>R_y</tex> (любой). Если же выборки не равны, то <tex>W = R_x</tex>, то есть сумме рангов, соответствующей меньшей выборке. |
'''Критерий''' (при [[уровень значимости|уровне значимости]] <tex>\alpha</tex>): | '''Критерий''' (при [[уровень значимости|уровне значимости]] <tex>\alpha</tex>): | ||
- | Против альтернативы <tex>H_1:\;</tex> | + | Против альтернативы <tex>H_1:\; \mathbb{P} \{ x < y \} \neq 1/2</tex>: |
:если <tex>W \notin \left[ W_{\alpha/2},\,W_{1-\alpha/2} \right]</tex> , то нулевая гипотеза отвергается. Здесь <tex>W_{\alpha}</tex> есть <tex>\alpha</tex>-[[квантиль]] табличного распределения Уилкоксона с параметрами <tex>m,\,n</tex>. | :если <tex>W \notin \left[ W_{\alpha/2},\,W_{1-\alpha/2} \right]</tex> , то нулевая гипотеза отвергается. Здесь <tex>W_{\alpha}</tex> есть <tex>\alpha</tex>-[[квантиль]] табличного распределения Уилкоксона с параметрами <tex>m,\,n</tex>. | ||
Строка 29: | Строка 30: | ||
Рассмотрим нормированную и центрированную статистика Уилкоксона: | Рассмотрим нормированную и центрированную статистика Уилкоксона: | ||
- | :<tex>\tilde W = \frac{ | + | :<tex>\tilde W = \frac{W - \frac{m(m + n + 1)}{2}}{sqrt{\frac{mn(m + n + 1)}{12}}}</tex>; |
<tex>\tilde W</tex> асимптотически имеет стандартное нормальное распределение. Нулевая гипотеза (против альтернативы <tex>H_1</tex>) отвергается, если <tex> |\tilde W| > \Phi_{1-\alpha/2} </tex>, где <tex>\Phi_{\alpha}</tex> есть <tex>\alpha</tex>-[[квантиль]] стандартного нормального распределения. | <tex>\tilde W</tex> асимптотически имеет стандартное нормальное распределение. Нулевая гипотеза (против альтернативы <tex>H_1</tex>) отвергается, если <tex> |\tilde W| > \Phi_{1-\alpha/2} </tex>, где <tex>\Phi_{\alpha}</tex> есть <tex>\alpha</tex>-[[квантиль]] стандартного нормального распределения. | ||
- | Приближение можно использовать, если размер хотя бы одной из выборок превышает 25. Если размеры выборок равны, то данная аппроксимация хорошо работает до <tex>m = n = 8</tex>. | + | Приближение можно использовать, если размер хотя бы одной из выборок превышает 25. Если размеры выборок равны, то данная аппроксимация хорошо работает до <tex>m = n = 8</tex>.<ref>Лапач С. Н. Статистика в науке и бизнесе. — 161 с.</ref> |
+ | |||
+ | При наличии связок необходимо учесть их с помощью поправки. Выражение в знаменателе необходимо заменить на следующее: | ||
- | + | :<tex>\left{ \frac{mn(n+m+1)}{12} \left[ 1 - \frac{\sum^k_{i = 1}t_i(t_i^2-1)}{(n+m)(n+m-1)(n+m+1)} \right] \right}^{1/2}</tex><ref>Кобзарь А. И. Прикладная математическая статистика. — 454 c.</ref><ref>Лагутин М. Б. Наглядная математическая статистика. — 206 с.</ref> | |
- | :<tex> | + | :где <tex>k</tex> - количество только тех связок, в которые входят ранги как одной, так и другой выборок, <tex>t_1, \ldots, t_k</tex> - их размеры. Совпадения, целиком состоящие из элементов одной и той же выборки, на величину <tex>\tilde W</tex> не влияют. Наблюдения, не совпадающие с другими, рассматриваются как связки размера 1. |
- | + | == Применение критерия == | |
- | + | В биологических и эконометрических приложениях метод часто используется для проверки гипотезы о равенстве средних двух независимых выборок в случае, когда нет предположений о дисперсиях.<ref>Лапач С. Н. Статистика в науке и бизнесе. — 160 с.</ref> В случае равных дисперсий рекомендуется применять [[Критерий_Уилкоксона-Манна-Уитни|U-критерий Манна-Уитни]].<ref>Лапач С. Н. Статистика в науке и бизнесе. — 118 с.</ref> Вообще говоря, данное использование критерия некорректно. Можно построить примеры, когда <tex>\mathbb{P} \{ x<y \} = 1/2</tex>, и медианы выборок не совпадают. При этом можно сказать, что недостатки критерия Уилкоксона не являются исключением, о многих популярных в математической статистике критериях можно сказать, что они не позволяют проверять те гипотезы, с которыми традиционно связаны.<ref>''Орлов А. И.'' Эконометрика. — §4.5</ref> При применении подобных критериев к анализу реальных данных необходимо тщательно взвешивать их достоинства и недостатки. | |
- | == | + | == Примечания == |
+ | <references/> | ||
== Литература == | == Литература == | ||
# ''Лагутин М. Б.'' Наглядная математическая статистика. В двух томах. — М.: П-центр, 2003. — 204-209 с. | # ''Лагутин М. Б.'' Наглядная математическая статистика. В двух томах. — М.: П-центр, 2003. — 204-209 с. | ||
# ''Лапач С. Н. , Чубенко А. В., Бабич П. Н.'' Статистика в науке и бизнесе. — Киев: Морион, 2002. — 160-164 с. | # ''Лапач С. Н. , Чубенко А. В., Бабич П. Н.'' Статистика в науке и бизнесе. — Киев: Морион, 2002. — 160-164 с. | ||
- | # ''Орлов А. И.'' Эконометрика. — М.: Экзамен, 2003. — 576 с. | + | # ''Орлов А. И.'' Эконометрика. — М.: Экзамен, 2003. — 576 с. |
+ | # ''Кобзарь А. И.'' Прикладная математическая статистика. — М.: Физматлит, 2006. — 454 с. | ||
== Ссылки == | == Ссылки == | ||
* [[Проверка статистических гипотез]] — о методологии проверки статистических гипотез. | * [[Проверка статистических гипотез]] — о методологии проверки статистических гипотез. | ||
+ | * [[Критерий Уилкоксона-Манна-Уитни]] | ||
+ | * [[Критерий Уилкоксона для связных выборок]] |
Версия 21:02, 12 декабря 2009
Критерий Уилкоксона (Вилкоксона) двухвыборочный — непараметрический статистический критерий, используемый для оценки различий между двумя выборками, взятыми из закона распределения, отличного от нормального, либо измеренными с использованием порядковой шкалы. Имеется аналог критерия Уилкоксона для связанных повторных наблюдений.
Содержание |
Пример задачи
Задача - сравнить две методики подготовки роженицы к родам. Сравнивается эффективность по оценке состояния новорожденного в баллах (шкала является порядковой).
Описание критерия
Заданы две выборки в противном случае следует поменять выборки местами.
Дополнительное предположение: обе выборки простые, объединённая выборка независима;
Вычисление статистики критерия:
- Построить общий вариационный ряд объединённой выборки и найти ранги всех элементов обеих выборок в общем вариационном ряду.
- Рассчитать суммы рангов, соответствующих обеим выборкам:
- Если размеры выборок совпадают (), то значение статистики будет равняется одной из сумм рангов или (любой). Если же выборки не равны, то , то есть сумме рангов, соответствующей меньшей выборке.
Критерий (при уровне значимости ):
Против альтернативы :
- если , то нулевая гипотеза отвергается. Здесь есть -квантиль табличного распределения Уилкоксона с параметрами .
Асимптотический критерий:
Рассмотрим нормированную и центрированную статистика Уилкоксона:
- ;
асимптотически имеет стандартное нормальное распределение. Нулевая гипотеза (против альтернативы ) отвергается, если , где есть -квантиль стандартного нормального распределения.
Приближение можно использовать, если размер хотя бы одной из выборок превышает 25. Если размеры выборок равны, то данная аппроксимация хорошо работает до .[1]
При наличии связок необходимо учесть их с помощью поправки. Выражение в знаменателе необходимо заменить на следующее:
- где - количество только тех связок, в которые входят ранги как одной, так и другой выборок, - их размеры. Совпадения, целиком состоящие из элементов одной и той же выборки, на величину не влияют. Наблюдения, не совпадающие с другими, рассматриваются как связки размера 1.
Применение критерия
В биологических и эконометрических приложениях метод часто используется для проверки гипотезы о равенстве средних двух независимых выборок в случае, когда нет предположений о дисперсиях.[4] В случае равных дисперсий рекомендуется применять U-критерий Манна-Уитни.[5] Вообще говоря, данное использование критерия некорректно. Можно построить примеры, когда , и медианы выборок не совпадают. При этом можно сказать, что недостатки критерия Уилкоксона не являются исключением, о многих популярных в математической статистике критериях можно сказать, что они не позволяют проверять те гипотезы, с которыми традиционно связаны.[6] При применении подобных критериев к анализу реальных данных необходимо тщательно взвешивать их достоинства и недостатки.
Примечания
- ↑ Лапач С. Н. Статистика в науке и бизнесе. — 161 с.
- ↑ Кобзарь А. И. Прикладная математическая статистика. — 454 c.
- ↑ Лагутин М. Б. Наглядная математическая статистика. — 206 с.
- ↑ Лапач С. Н. Статистика в науке и бизнесе. — 160 с.
- ↑ Лапач С. Н. Статистика в науке и бизнесе. — 118 с.
- ↑ Орлов А. И. Эконометрика. — §4.5
Литература
- Лагутин М. Б. Наглядная математическая статистика. В двух томах. — М.: П-центр, 2003. — 204-209 с.
- Лапач С. Н. , Чубенко А. В., Бабич П. Н. Статистика в науке и бизнесе. — Киев: Морион, 2002. — 160-164 с.
- Орлов А. И. Эконометрика. — М.: Экзамен, 2003. — 576 с.
- Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006. — 454 с.
Ссылки
- Проверка статистических гипотез — о методологии проверки статистических гипотез.
- Критерий Уилкоксона-Манна-Уитни
- Критерий Уилкоксона для связных выборок