Критерий Уилкоксона-Манна-Уитни

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск

Vokov (Обсуждение | вклад)
(Новая: '''U-критерий Манна-Уитни''' (Mann-Whitney U test) — непараметрический статистический критерий, используемый д...)
К следующему изменению →

Версия 19:03, 14 августа 2008

U-критерий Манна-Уитни (Mann-Whitney U test) — непараметрический статистический критерий, используемый для оценки различий между двумя выборками по признаку, измеренному в количественной или порядковой шкале.

Другие названия: критерий Манна-Уитни-Уилкоксона (Mann-Whitney-Wilcoxon, MWW), критерий суммы рангов Уилкоксона (Wilcoxon rank-sum test) или критерий Уилкоксона-Манна-Уитни (Wilcoxon-Mann-Whitney test, WMW).

Критерий часто применяется для проверки равенства средних в двух выборках (отрицание этого предположения называют гипотезой сдвига). Однако, строго говоря, U-критерий проверяет нулевую гипотезу об однородности, то есть гипотезу, что две выборки одинаково распределены. Это более сильное предположение. С другой стороны, U-критерий гораздо более чувствителен к различию средних, чем к различию дисперсий или других характеристик распределения выборок. Для проверки однородности следует пользоваться более мощными критериями.

Критерий Манна-Уитни является непараметрическим аналогом критерия Стьюдента. Если выборки нормальные, то предпочтительно применить более мощный критерий Стьюдента.

Содержание

Примеры задач

Пример 1. Первая выборка — это пациенты, которых лечили препаратом А. Вторая выборка — пациенты, которых лечили препаратом Б. Значения в выборках — это некоторая характеристика эффективности лечения (уровень метаболита в крови, температура через три дня после начала лечения, срок выздоровления, число койко-дней, и т.д.) Требуется выяснить, имеется ли значимое различие эффективности препаратов А и Б, или различия являются чисто случайными и объясняются «естественной» дисперсией выбранной характеристики.

Пример 2. Первая выборка — это поля, обработанные агротехническим методом А. Вторая выборка — поля, обработанные агротехническим методом Б. Значения в выборках — это урожайность. Требуется выяснить, является ли один из методов эффективнее другого, или различия урожайности обусловлены случайными факторами.

Пример 3. Первая выборка — это дни, когда в супермаркете проходила промо-акция типа А (красные ценники со скидкой). Вторая выборка — дни промо-акции типа Б (каждая пятая пачка бесплатно). Значения в выборках — это показатель эффективности промо-акции (объём продаж, либо выручка в рублях). Требуется выяснить, какой из типов промо-акции более эффективен.

Описание критерия

Заданы две выборки x^m = (x_1,\ldots,x_m),\; x_i \in \mathbb{R};\;\; y^n = (y_1,\ldots,y_n),\; y_i \in \mathbb{R}.

Дополнительные предположения:

  • обе выборки простые;
  • обе выборки взяты из непрерывных распределений.

Нулевая гипотеза H_0: две выборки взяты из одного и того же распределения.

Статистика критерия:

  1. Построить общий вариационный ряд объединённой выборки x^{(1)} \leq \cdots \leq x^{(m+n)} и найти ранги r(x_i),\; r(y_i) всех элементов обеих выборок в общем вариационном ряду.
  2. Вычислить средние ранги обеих выборок и статистику U:
R_x = \sum_{i=1}^m r(x_i);\;\;\;\; U_x = mn + \frac12m(m+1) - R_x;
R_y = \sum_{i=1}^n r(y_i);\;\;\;\; U_y = mn + \frac12n(n+1) - R_y;
U = \min\left\{U_x,U_y\right\}.

Замечание: менее рациональный способ вычисления статистик U_x,\: U_y:

U_x = \sum_{i=1}^m \sum_{j=1}^n \left[ x_i < y_j\right];
U_y = \sum_{i=1}^m \sum_{j=1}^n \left[ x_i > y_j\right].

Критерий (при уровне значимости \alpha):

  • против альтернативы H_1:\; \bar x \neq \bar y
если  U < U_{\alpha/2} или  U < U_{1-\alpha/2} , то нулевая гипотеза отвергается;
  • против альтернативы H'_1:\; \bar x < \bar y
если  U < U_{\alpha} , то нулевая гипотеза отвергается;
  • против альтернативы H''_1:\; \bar x > \bar y
если  U > U_{1-\alpha} , то нулевая гипотеза отвергается;

где  U_{\alpha} есть \alpha-квантиль табличного распределения Уилкоксона-Манна-Уитни с параметрами m,\,n.

Асимптотический критерий при m,\,n > 8:

\tilde U = \frac{U-\frac12mn}{\sqrt{\frac1{12}mn(m+n+1)}} асимптотически имеет стандартное нормальное распределение.

История

Данный метод выявления различий между выборками был предложен в 1945 году Френком Уилкоксоном. В 1947 году он был существенно переработан и расширен Манном и Уитни, по именам которых сегодня обычно и называется.

Литература

  1. Mann H. B., Whitney D. R. On a test of whether one of two random variables is stochastically larger than the other. // Annals of Mathematical Statistics. — 1947, №18. — Pp. 50-60.
  2. Wilcoxon F. Individual Comparisons by Ranking Methods. // Biometrics Bulletin 1. 1945. — Pp. 80–83.
  3. Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006. — 816 с.

Ссылки

Личные инструменты