Критерий Уилкоксона двухвыборочный
Материал из MachineLearning.
(уточнение) |
(это задание) |
||
Строка 141: | Строка 141: | ||
* [[Проверка статистических гипотез]] — о методологии проверки статистических гипотез. | * [[Проверка статистических гипотез]] — о методологии проверки статистических гипотез. | ||
* [[Критерий Уилкоксона для связных выборок]] — аналог критерия для случая парных повторных наблюдений. | * [[Критерий Уилкоксона для связных выборок]] — аналог критерия для случая парных повторных наблюдений. | ||
+ | |||
+ | {{Задание|Василий Ломакин|Vokov|31 декабря 2009}} |
Версия 08:39, 6 января 2010
|
Критерий Уилкоксона (Вилкоксона) двухвыборочный — непараметрический статистический критерий, используемый для оценки различий между двумя выборками, взятыми из закона распределения, отличного от нормального, либо измеренными с использованием порядковой шкалы. Имеется аналог критерия Уилкоксона для связанных повторных наблюдений. Критерий является ранговым, поэтому он инвариантен по отношению к любому монотонному преобразованию шкалы измерения.
Пример задачи
Задача - сравнить две методики подготовки роженицы к родам. Сравнивается эффективность по оценке состояния новорожденного в баллах (шкала является порядковой).
Описание критерия
Заданы две выборки в противном случае следует поменять выборки местами.
Дополнительные предположения: обе выборки простые, объединённая выборка независима;
Вычисление статистики критерия:
- Построить общий вариационный ряд объединённой выборки и найти ранги всех элементов обеих выборок в общем вариационном ряду.
- Рассчитать суммы рангов, соответствующих обеим выборкам:
- Если размеры выборок совпадают (), то значение статистики будет равняется одной из сумм рангов или (любой). Если же выборки не равны, то , то есть сумме рангов, соответствующей меньшей выборке. Заметим, что статистика линейно связана со статистикой U-критерия Манна-Уитни.
Критерий (при уровне значимости ):
Против альтернативы :
- если , то нулевая гипотеза отвергается. Здесь есть -квантиль табличного распределения Уилкоксона с параметрами . [1][1]
Асимптотический критерий:
Рассмотрим нормированную и центрированную статистика Уилкоксона:
- ;
асимптотически имеет стандартное нормальное распределение. Нулевая гипотеза (против альтернативы ) отвергается, если , где есть -квантиль стандартного нормального распределения.
Приближение можно использовать, если размер хотя бы одной из выборок превышает 25. Если размеры выборок равны, то данная аппроксимация хорошо работает до .[1]
Случай совпадающих наблюдений:
При наличии связок необходимо учесть их с помощью поправки. Выражение в знаменателе необходимо заменить на следующее:
- Здесь - количество только тех связок, в которые входят ранги как одной, так и другой выборок, - их размеры. Совпадения, целиком состоящие из элементов одной и той же выборки, на величину не влияют. Наблюдения, не совпадающие с другими, рассматриваются как связки размера 1. Для элементов связок вычисляется средний ранг.
Поправка:[1]
В 1976 году Р. Иман предложил следующую аппроксимацию, обеспечивающую значительное снижение относительной ошибки для критических значений, в том числе на малых выборках. Поправка использует полусумму нормальной и стьюдентовской квантилей. Положим . Тогда:
- .
Гипотеза отвергается, если , где обозначают соответственно квантили уровня стандартного нормального распределения и распределения Стьюдента с степенью свободы.
Применение критерия
В биологических и эконометрических приложениях метод часто используется для проверки гипотезы о равенстве средних двух независимых выборок. Вообще говоря, данное использование критерия некорректно. Можно построить примеры, когда , и средние выборок не совпадают.[1] При этом надо заметить, что данный недостаток не является редкостью, о многих популярных в математической статистике критериях можно сказать, что они не позволяют проверять те гипотезы, с которыми традиционно связаны. При применении подобных критериев к анализу реальных данных необходимо тщательно взвешивать их достоинства и недостатки.[1]
Критерий является аналогом критерия t-критерия Стьюдента для независимых выборок в случае закона распределения, отличного от нормального, либо данных, измеренных с использованием порядковой шкалы. Для нормально распределённых совокупностей следует использовать более мощный t-критерий.
Критерий Уилкоксона и U-критерий Манна-Уитни
Статистики критериев Уилкоксона и Уилкоксона-Манна-Уитни линейно связаны, поэтому, по сути, нет смысла говорить о двух различных критериях.[1] Оба они проверяют одну и ту же гипотезу и их границы применимости также совпадают. В то же время в литературе можно встретить рекомендации использовать критерий Уилкоксона для проверки равенства средних, когда нет предположений о дисперсиях,[1], а в случае равных дисперсий применять U-критерий Манна-Уитни.[1]
Проведём эксперимент: будем строить график достигаемого уровня значимости как функцию размера выборок и параметров распределения. Будем усреднять p-value по нескольким десяткам экспериментов.
Общие параметры для всех экспериментов:
- Выборки генерируются независимо из нормального распределения с заданными параметрами.
- Размер выборок варьируется от 50 до 500 с шагом 50.
- Значение p-value усредняется по 50 экспериментам.
- Размер выборки откладывается по вертикальной оси, переменный параметр по горизонтальной.
Тип критерия | Параметры эксперимента | График |
---|---|---|
U-критерий Манна-Уитни | Среднее первой выборки: 0.
Среднее второй выборки: -3:0.3:3.[1] Дисперсия первой выборки: 5. Дисперсия второй выборки: 5. | |
Критерий Уилкоксона | Среднее первой выборки: 0.
Среднее второй выборки: -3:0.3:3. Дисперсия первой выборки: 5. Дисперсия второй выборки: 5. | |
U-критерий Манна-Уитни | Среднее первой выборки: 0.
Среднее второй выборки: -30:3:30. Дисперсия первой выборки: 1. Дисперсия второй выборки: 50. | |
Критерий Уилкоксона | Среднее первой выборки: 0.
Среднее второй выборки: -30:3:30. Дисперсия первой выборки: 1. Дисперсия второй выборки: 50. |
Легко видеть, что при одинаковых параметрах экспериментов графики p-value критериев Уилкоксона и Уилкоксона-Манна-Уитни практически совпадают, в том числе и в случае, когда дисперсии выборок существенно различаются.
Примечания
Литература
- Лагутин М. Б. Наглядная математическая статистика. В двух томах. — М.: П-центр, 2003. — 204-209 с.
- Лапач С. Н. , Чубенко А. В., Бабич П. Н. Статистика в науке и бизнесе. — Киев: Морион, 2002. — 160-164 с.
- Орлов А. И. Эконометрика. — М.: Экзамен, 2003. — §4.5.
- Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006. — 454-456 с.
Ссылки
- Критерий Уилкоксона-Манна-Уитни — аналогичный критерий.
- Проверка статистических гипотез — о методологии проверки статистических гипотез.
- Критерий Уилкоксона для связных выборок — аналог критерия для случая парных повторных наблюдений.
Данная статья является непроверенным учебным заданием.
До указанного срока статья не должна редактироваться другими участниками проекта MachineLearning.ru. По его окончании любой участник вправе исправить данную статью по своему усмотрению и удалить данное предупреждение, выводимое с помощью шаблона {{Задание}}. См. также методические указания по использованию Ресурса MachineLearning.ru в учебном процессе. |