Участник:Slimper/Песочница

Материал из MachineLearning.

Перейти к: навигация, поиск

Критерий Ван-дер-Варденанепараметрический статистический критерий, используемый для оценки различий между двумя выборками по признаку, измеренному в количественной шкале. Критерий является ранговым, поэтому он инвариантен по отношению к любому монотонному преобразованию шкалы измерения.

Содержание

Примеры задач

Пример 1. Первая выборка — это пациенты, которых лечили препаратом А. Вторая выборка — пациенты, которых лечили препаратом Б. Значения в выборках — это некоторая характеристика эффективности лечения (уровень метаболита в крови, температура через три дня после начала лечения, срок выздоровления, число койко-дней, и т.д.) Требуется выяснить, имеется ли значимое различие эффективности препаратов А и Б, или различия являются чисто случайными и объясняются «естественной» дисперсией выбранной характеристики.

Пример 2. Первая выборка — это поля, обработанные агротехническим методом А. Вторая выборка — поля, обработанные агротехническим методом Б. Значения в выборках — это урожайность. Требуется выяснить, является ли один из методов эффективнее другого, или различия урожайности обусловлены случайными факторами.

Пример 3. Первая выборка — это дни, когда в супермаркете проходила промо-акция типа А (красные ценники со скидкой). Вторая выборка — дни промо-акции типа Б (каждая пятая пачка бесплатно). Значения в выборках — это показатель эффективности промо-акции (объём продаж, либо выручка в рублях). Требуется выяснить, какой из типов промо-акции более эффективен.

Описание критерия

Заданы две выборки x^m = (x_1,\ldots,x_m),\; x_i \in \mathbb{R};\;\; y^n = (y_1,\ldots,y_n),\; y_i \in \mathbb{R}.

Дополнительные предположения:

  • обе выборки простые, объединённая выборка независима;
  • выборки взяты из неизвестных непрерывных распределений F(x) и G(y) соответственно.

Нулевая гипотеза H_0:\; F(x) = G(y).

Статистика критерия:

  1. Построить общий вариационный ряд объединённой выборки x^{(1)} \leq \cdots \leq x^{(m+n)} и найти ранги r(x_i),\; r(y_i) всех элементов обеих выборок в общем вариационном ряду.
  2. Вычислить суммарные ранги обеих выборок и статистику Манна-Уитни U:
R_x = \sum_{i=1}^m r(x_i);\;\;\;\; U_x = mn + \frac12m(m+1) - R_x;
R_y = \sum_{i=1}^n r(y_i);\;\;\;\; U_y = mn + \frac12n(n+1) - R_y;
U = \min\left\{U_x,U_y\right\}.

Замечание: менее рациональный способ вычисления статистик Манна-Уитни U_x,\: U_y:

U_x = \sum_{i=1}^m \sum_{j=1}^n \left[ x_i < y_j\right];
U_y = \sum_{i=1}^m \sum_{j=1}^n \left[ x_i > y_j\right].

Критерий (при уровне значимости \alpha):


  • против альтернативы H_1:\; \mathbb{P} \{ x<y \} \neq 1/2
если  U \notin \left[ U_{\alpha/2},\, U_{1-\alpha/2} \right] , то нулевая гипотеза отвергается;
  • против альтернативы H'_1:\; \mathbb{P} \{ x<y \} > 1/2
если  U_x > U_{1-\alpha} , то нулевая гипотеза отвергается;
  • против альтернативы H''_1:\; \mathbb{P} \{ x<y \} < 1/2
если  U_y > U_{1-\alpha} , то нулевая гипотеза отвергается;

где  U_{\alpha} есть \alpha-квантиль табличного распределения Уилкоксона-Манна-Уитни с параметрами m,\,n.

Асимптотический критерий: нормированная и центрированная статистика Манна-Уитни

\tilde U = \frac{U-\frac12mn}{\sqrt{\frac1{12}mn(m+n+1)}}

асимптотически имеет стандартное нормальное распределение при m,\,n > 8.

Свойства и границы применимости U-критерия

Иногда ошибочно считают, что U-критерий проверяет нулевую гипотезу однородности H_{00}:\; F(x)=G(y), то есть что две выборки взяты из одного и того же распределения. U-критерий не является состоятельным против общей альтернативы H_1:\; F(x) \neq G(y). Это означает, что гипотеза однородности будет приниматься чаще, чем она на самом деле верна. Существуют ситуации, когда гипотеза H_{0} верна, а более сильная гипотеза однородности H_{00} не верна [Орлов]. Для проверки однородности существуют более мощные критерии, в частности, критерий Смирнова или критерий Лемана-Розенблатта.

Иногда ошибочно считают, что U-критерий проверяет нулевую гипотезу равенства медиан в двух выборках. Существуют распределения, для которых гипотеза H_{0} верна, но их медианы различны.

U-критерий можно применять для проверки гипотезы сдвига в качестве альтернативной H_{1}:\; F(x)=G(x+r), где r — некоторая константа, отличная от нуля. При этой альтернативе U-критерий является состоятельным. Его целесообразно применять, если одним и тем же прибором проводятся две серии измерений двух значений некоторой физической величины. При этом функция распределения G(x) описывает погрешности измерения одного значения, а G(x+r) — другого. Однако во многих приложениях (в частности, эконометрических) нет особых оснований предполагать, что распределение второй выборки лишь сдвигается, но не меняется каким-либо иным образом.

U-критерий является непараметрическим аналогом критерия Стьюдента. Если выборки нормальные, то для проверки гипотезы сдвига предпочтительно применить более мощный критерий Стьюдента.

История

Критерий был предложен Ван-дер-Варденом в 1953 году

Литература

  1. ван дер Варден Б.Л. Математическая статистика/Пер.с нем. — М.:  Иностранная литература,1960 — 450 c.
  2. Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006. — 816 с.

См. также

Ссылки

Данная статья является непроверенным учебным заданием.
Студент: Участник:Slimper
Преподаватель: Участник:Vokov
Срок: 08 января 2010

До указанного срока статья не должна редактироваться другими участниками проекта MachineLearning.ru. По его окончании любой участник вправе исправить данную статью по своему усмотрению и удалить данное предупреждение, выводимое с помощью шаблона {{Задание}}.

См. также методические указания по использованию Ресурса MachineLearning.ru в учебном процессе.


Личные инструменты