Участник:Василий Ломакин/Критерий Уилкоксона двухвыборочный
Материал из MachineLearning.
Строка 1: | Строка 1: | ||
{{TOCright}} | {{TOCright}} | ||
+ | TODO: | ||
+ | # Иллюстрации - критическая область | ||
+ | # Графики | ||
+ | # Поправка | ||
+ | # Номер страницы с таблицей в Кобзаре | ||
+ | # Таблица ??? Найти в инете, скопировать и дать ссылку на источник? | ||
'''Критерий Уилкоксона (Вилкоксона) двухвыборочный''' — [[непараметрический статистический критерий]], используемый для оценки различий между двумя выборками, взятыми из закона распределения, отличного от нормального, либо измеренными с использованием [[Теория измерений|порядковой шкалы]]. Имеется [[Критерий_Уилкоксона_для_связных_выборок|аналог]] критерия Уилкоксона для связанных повторных наблюдений. Критерий является [[Ранговый критерий|ранговым]], поэтому он инвариантен по отношению к любому монотонному преобразованию шкалы измерения. | '''Критерий Уилкоксона (Вилкоксона) двухвыборочный''' — [[непараметрический статистический критерий]], используемый для оценки различий между двумя выборками, взятыми из закона распределения, отличного от нормального, либо измеренными с использованием [[Теория измерений|порядковой шкалы]]. Имеется [[Критерий_Уилкоксона_для_связных_выборок|аналог]] критерия Уилкоксона для связанных повторных наблюдений. Критерий является [[Ранговый критерий|ранговым]], поэтому он инвариантен по отношению к любому монотонному преобразованию шкалы измерения. | ||
Строка 39: | Строка 45: | ||
Приближение можно использовать, если размер хотя бы одной из выборок превышает 25. Если размеры выборок равны, то данная аппроксимация хорошо работает до <tex>m = n = 8</tex>.<ref>Лапач С. Н. Статистика в науке и бизнесе. — 161 с.</ref> | Приближение можно использовать, если размер хотя бы одной из выборок превышает 25. Если размеры выборок равны, то данная аппроксимация хорошо работает до <tex>m = n = 8</tex>.<ref>Лапач С. Н. Статистика в науке и бизнесе. — 161 с.</ref> | ||
- | При наличии связок необходимо учесть их с помощью поправки. Выражение в знаменателе необходимо заменить на следующее: | + | При наличии [[Вариационный ряд|связок]] необходимо учесть их с помощью поправки. Выражение в знаменателе необходимо заменить на следующее: |
:<tex>\left{ \frac{mn(n+m+1)}{12} \left[ 1 - \frac{\sum^k_{i = 1}t_i(t_i^2-1)}{(n+m)(n+m-1)(n+m+1)} \right] \right}^{1/2},</tex><ref>Кобзарь А. И. Прикладная математическая статистика. — 454 c.</ref><ref>Лагутин М. Б. Наглядная математическая статистика. — 206 с.</ref> | :<tex>\left{ \frac{mn(n+m+1)}{12} \left[ 1 - \frac{\sum^k_{i = 1}t_i(t_i^2-1)}{(n+m)(n+m-1)(n+m+1)} \right] \right}^{1/2},</tex><ref>Кобзарь А. И. Прикладная математическая статистика. — 454 c.</ref><ref>Лагутин М. Б. Наглядная математическая статистика. — 206 с.</ref> | ||
- | :где <tex>k</tex> - количество только тех связок, в которые входят ранги как одной, так и другой выборок, <tex>t_1, \ldots, t_k</tex> - их размеры. Совпадения, целиком состоящие из элементов одной и той же выборки, на величину <tex>\tilde W</tex> не влияют. Наблюдения, не совпадающие с другими, рассматриваются как связки размера 1. | + | :где <tex>k</tex> - количество только тех связок, в которые входят ранги как одной, так и другой выборок, <tex>t_1, \ldots, t_k</tex> - их размеры. Совпадения, целиком состоящие из элементов одной и той же выборки, на величину <tex>\tilde W</tex> не влияют. Наблюдения, не совпадающие с другими, рассматриваются как связки размера 1. Для элементов связок вычисляется [[Вариационный ряд|средний ранг]]. |
== Применение критерия == | == Применение критерия == |
Версия 16:23, 3 января 2010
|
TODO:
- Иллюстрации - критическая область
- Графики
- Поправка
- Номер страницы с таблицей в Кобзаре
- Таблица ??? Найти в инете, скопировать и дать ссылку на источник?
Критерий Уилкоксона (Вилкоксона) двухвыборочный — непараметрический статистический критерий, используемый для оценки различий между двумя выборками, взятыми из закона распределения, отличного от нормального, либо измеренными с использованием порядковой шкалы. Имеется аналог критерия Уилкоксона для связанных повторных наблюдений. Критерий является ранговым, поэтому он инвариантен по отношению к любому монотонному преобразованию шкалы измерения.
Пример задачи
Задача - сравнить две методики подготовки роженицы к родам. Сравнивается эффективность по оценке состояния новорожденного в баллах (шкала является порядковой).
Описание критерия
Заданы две выборки в противном случае следует поменять выборки местами.
Дополнительное предположение: обе выборки простые, объединённая выборка независима;
Вычисление статистики критерия:
- Построить общий вариационный ряд объединённой выборки и найти ранги всех элементов обеих выборок в общем вариационном ряду.
- Рассчитать суммы рангов, соответствующих обеим выборкам:
- Если размеры выборок совпадают (), то значение статистики будет равняется одной из сумм рангов или (любой). Если же выборки не равны, то , то есть сумме рангов, соответствующей меньшей выборке. Заметим, что статистика линейно связана со статистикой U-критерия Манна-Уитни.
Критерий (при уровне значимости ):
Против альтернативы :
- если , то нулевая гипотеза отвергается. Здесь есть -квантиль табличного распределения Уилкоксона с параметрами . [1][2]
Асимптотический критерий:
Рассмотрим нормированную и центрированную статистика Уилкоксона:
- ;
асимптотически имеет стандартное нормальное распределение. Нулевая гипотеза (против альтернативы ) отвергается, если , где есть -квантиль стандартного нормального распределения.
Приближение можно использовать, если размер хотя бы одной из выборок превышает 25. Если размеры выборок равны, то данная аппроксимация хорошо работает до .[3]
При наличии связок необходимо учесть их с помощью поправки. Выражение в знаменателе необходимо заменить на следующее:
- где - количество только тех связок, в которые входят ранги как одной, так и другой выборок, - их размеры. Совпадения, целиком состоящие из элементов одной и той же выборки, на величину не влияют. Наблюдения, не совпадающие с другими, рассматриваются как связки размера 1. Для элементов связок вычисляется средний ранг.
Применение критерия
В биологических и эконометрических приложениях метод часто используется для проверки гипотезы о равенстве средних двух независимых выборок. Вообще говоря, данное использование критерия некорректно. Можно построить примеры, когда , и средние выборок не совпадают.[6] При этом надо заметить, что данный недостаток не является редкостью, о многих популярных в математической статистике критериях можно сказать, что они не позволяют проверять те гипотезы, с которыми традиционно связаны. При применении подобных критериев к анализу реальных данных необходимо тщательно взвешивать их достоинства и недостатки. [7]
Критерий является аналогом критерия t-критерия Стьюдента для независимых выборок в случае закона распределения, отличного от нормального, либо данных, измеренных с использованием порядковой шкалы. Для нормально распределённых совокупностей следует использовать более мощный t-критерий.
Критерий Вилкоксона и U-критерий Манна-Уитни
Статистики критериев Вилкоксона и Вилкоксона-Манна-Уитни линейно связаны, поэтому, по сути, нет смысла говорить о двух различных критериях.[8] Оба они проверяют одну и ту же гипотезу и их границы применимости также совпадают. В то же время в литературе можно встретить рекомендации использовать критерий Вилкоксона для проверки равенства средних, когда нет предположений о дисперсиях,[9], а в случае равных дисперсий применять U-критерий Манна-Уитни.[10]
Проведём эксперимент: будем строить график достигаемого уровня значимости как функцию размера выборок и параметров распределения, усреднённого по нескольким десяткам экспериментов.
<График p-value критерия Вилкоксона для равных дисперсий. Размер выборок 50:50:500. Выборка1 . Выборка2 >
Примечания
- ↑ Кобзарь А. И. Прикладная математическая статистика. — ??? c.
- ↑ Лапач С. Н. Статистика в науке и бизнесе. — 150 с.
- ↑ Лапач С. Н. Статистика в науке и бизнесе. — 161 с.
- ↑ Кобзарь А. И. Прикладная математическая статистика. — 454 c.
- ↑ Лагутин М. Б. Наглядная математическая статистика. — 206 с.
- ↑ Орлов А. И. Эконометрика. — 79 с.
- ↑ Орлов А. И. Эконометрика. — 83 с.
- ↑ Орлов А. И. Эконометрика. — 75 c.
- ↑ Лапач С. Н. Статистика в науке и бизнесе. — 160 с.
- ↑ Лапач С. Н. Статистика в науке и бизнесе. — 118 с.
Литература
- Лагутин М. Б. Наглядная математическая статистика. В двух томах. — М.: П-центр, 2003. — 204-209 с.
- Лапач С. Н. , Чубенко А. В., Бабич П. Н. Статистика в науке и бизнесе. — Киев: Морион, 2002. — 160-164 с.
- Орлов А. И. Эконометрика. — М.: Экзамен, 2003. — §4.5.
- Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006. — 576 ??? с.
Ссылки
- Проверка статистических гипотез — о методологии проверки статистических гипотез.
- Критерий Уилкоксона-Манна-Уитни
- Критерий Уилкоксона для связных выборок