Критерий Уилкоксона-Манна-Уитни

Материал из MachineLearning.

Версия от 19:03, 14 августа 2008; Vokov (Обсуждение | вклад)

(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)

U-критерий Манна-Уитни (Mann-Whitney U test) — непараметрический статистический критерий, используемый для оценки различий между двумя выборками по признаку, измеренному в количественной или порядковой шкале.

Другие названия: критерий Манна-Уитни-Уилкоксона (Mann-Whitney-Wilcoxon, MWW), критерий суммы рангов Уилкоксона (Wilcoxon rank-sum test) или критерий Уилкоксона-Манна-Уитни (Wilcoxon-Mann-Whitney test, WMW).

Критерий часто применяется для проверки равенства средних в двух выборках (отрицание этого предположения называют гипотезой сдвига). Однако, строго говоря, U-критерий проверяет нулевую гипотезу об однородности, то есть гипотезу, что две выборки одинаково распределены. Это более сильное предположение. С другой стороны, U-критерий гораздо более чувствителен к различию средних, чем к различию дисперсий или других характеристик распределения выборок. Для проверки однородности следует пользоваться более мощными критериями.

Критерий Манна-Уитни является непараметрическим аналогом критерия Стьюдента. Если выборки нормальные, то предпочтительно применить более мощный критерий Стьюдента.

Примеры задач

Пример 1. Первая выборка — это пациенты, которых лечили препаратом А. Вторая выборка — пациенты, которых лечили препаратом Б. Значения в выборках — это некоторая характеристика эффективности лечения (уровень метаболита в крови, температура через три дня после начала лечения, срок выздоровления, число койко-дней, и т.д.) Требуется выяснить, имеется ли значимое различие эффективности препаратов А и Б, или различия являются чисто случайными и объясняются «естественной» дисперсией выбранной характеристики.

Пример 2. Первая выборка — это поля, обработанные агротехническим методом А. Вторая выборка — поля, обработанные агротехническим методом Б. Значения в выборках — это урожайность. Требуется выяснить, является ли один из методов эффективнее другого, или различия урожайности обусловлены случайными факторами.

Пример 3. Первая выборка — это дни, когда в супермаркете проходила промо-акция типа А (красные ценники со скидкой). Вторая выборка — дни промо-акции типа Б (каждая пятая пачка бесплатно). Значения в выборках — это показатель эффективности промо-акции (объём продаж, либо выручка в рублях). Требуется выяснить, какой из типов промо-акции более эффективен.

Описание критерия

Заданы две выборки $x^m = (x_1,\ldots,x_m),\; x_i \in \mathbb{R};\;\; y^n = (y_1,\ldots,y_n),\; y_i \in \mathbb{R}$ .

Дополнительные предположения:

обе выборки простые;
обе выборки взяты из непрерывных распределений.

Нулевая гипотеза $H_0:$ две выборки взяты из одного и того же распределения.

Статистика критерия:

Построить общий вариационный ряд объединённой выборки $x^{(1)} \leq \cdots \leq x^{(m+n)}$ и найти ранги $r(x_i),\; r(y_i)$ всех элементов обеих выборок в общем вариационном ряду.
Вычислить средние ранги обеих выборок и статистику $U$ :

$R_x = \sum_{i=1}^m r(x_i);\;\;\;\; U_x = mn + \frac12m(m+1) - R_x;$

$R_y = \sum_{i=1}^n r(y_i);\;\;\;\; U_y = mn + \frac12n(n+1) - R_y;$

$U = \min\left\{U_x,U_y\right\}.$

Замечание: менее рациональный способ вычисления статистик $U_x,\: U_y$ :

$U_x = \sum_{i=1}^m \sum_{j=1}^n \left[ x_i < y_j\right];$

$U_y = \sum_{i=1}^m \sum_{j=1}^n \left[ x_i > y_j\right].$

Критерий (при уровне значимости $\alpha$ ):

против альтернативы $H_1:\; \bar x \neq \bar y$

если $U < U_{\alpha/2}$ или $U < U_{1-\alpha/2}$ , то нулевая гипотеза отвергается;

против альтернативы $H'_1:\; \bar x < \bar y$

если $U < U_{\alpha}$ , то нулевая гипотеза отвергается;

против альтернативы $H''_1:\; \bar x > \bar y$

если $U > U_{1-\alpha}$ , то нулевая гипотеза отвергается;

где $U_{\alpha}$ есть $\alpha$ -квантиль табличного распределения Уилкоксона-Манна-Уитни с параметрами $m,\,n$ .

Асимптотический критерий при $m,\,n > 8$ :

$\tilde U = \frac{U-\frac12mn}{\sqrt{\frac1{12}mn(m+n+1)}}$ асимптотически имеет стандартное нормальное распределение.

История

Данный метод выявления различий между выборками был предложен в 1945 году Френком Уилкоксоном. В 1947 году он был существенно переработан и расширен Манном и Уитни, по именам которых сегодня обычно и называется.

Литература

Mann H. B., Whitney D. R. On a test of whether one of two random variables is stochastically larger than the other. // Annals of Mathematical Statistics. — 1947, №18. — Pp. 50-60.
Wilcoxon F. Individual Comparisons by Ranking Methods. // Biometrics Bulletin 1. 1945. — Pp. 80–83.
Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006. — 816 с.

Ссылки

Проверка статистических гипотез — о методологии проверки статистических гипотез.
Статистика (функция выборки)
Критерий Стьюдента
Mann-Whitney U (Wikipedia).
U-критерий Манна-Уитни (Википедия).
Таблица критических значений U-критерия Манна-Уитни
Critical Values for the Mann-Whitney U-Test.

Источник — «http://machinelearning.ru/wiki/index.php?title=%D0%9A%D1%80%D0%B8%D1%82%D0%B5%D1%80%D0%B8%D0%B9_%D0%A3%D0%B8%D0%BB%D0%BA%D0%BE%D0%BA%D1%81%D0%BE%D0%BD%D0%B0-%D0%9C%D0%B0%D0%BD%D0%BD%D0%B0-%D0%A3%D0%B8%D1%82%D0%BD%D0%B8»

Категории: Статистические тесты | Непараметрические статистические тесты

Критерий Уилкоксона-Манна-Уитни

Материал из MachineLearning.

Содержание

Примеры задач

Описание критерия

История

Литература

Ссылки

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты