Участник:Slimper/Песочница

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
Строка 1: Строка 1:
-
'''Критерий Ван дер Вардена''' — это [[ранговый критерий]] в которых вместо выборочных значений используются их [[ранг]]и(номера элементов в упорядоченной по возрастанию выборке). Большинство ранговых критериев являются
+
'''Критерий Ван-дер-Вардена''' — [[непараметрический статистический критерий]], используемый для оценки различий между двумя [[выборка]]ми по признаку, измеренному в количественной [[шкала измерения|шкале]]. Критерий является ранговым, поэтому он инвариантен по отношению
-
[[Проверка статистических гипотез#Типы статистических критериев| непараметрическими]], хотя
+
к любому монотонному преобразованию шкалы измерения.
-
среди ранговых критериев встречаются и параметрические, например, одновыборочный [[критерий Колмогорова-Смирнова]].
+
-
==Классификация ранговых критериев ==
+
== Примеры задач ==
-
''Ранговые критерии'' можно разбить на группы в зависимости от типа [[Проверка статистических гипотез| статистической гипотезы]], которую они проверяют. Некоторые критерии входят в несколько групп, так как их можно использовать для проверки различных гипотез.
+
-
<ref>''Hajek J., Sidak Z., Sen K. P.'' Theory of rank tests(second edition)</ref>
+
-
=== Критерии случайности ===
+
-
Пусть задана выборка
+
-
<tex>x_1, \dots x_n</tex>.
+
-
Проверяется гипотеза о том, что наблюдения <tex>x_i</tex> независимы и подчиняются одному
+
-
и тому же распределению с плотностью <tex>f(x)</tex>.
+
-
*[[Критерий серий]] <ref> ''Кобзарь А. И.'' Прикладная математическая статистика. — М.:&nbsp;Физматлит, 2006, c. 526 </ref>
+
-
*[[Критерий инверсий]]<ref> ''Кобзарь А. И.'' Прикладная математическая статистика. — М.:&nbsp;Физматлит, 2006, c. 535 </ref>
+
-
*[[Критерий Вальда-Волфовитца]] <ref> ''Кобзарь А. И.'' Прикладная математическая статистика. — М.:&nbsp;Физматлит, 2006, c. 539 </ref>
+
-
*[[Критерий Рамачандрана-Ранганатана]] <ref> ''Кобзарь А. И.'' Прикладная математическая статистика. — М.:&nbsp;Физматлит, 2006, c. 530 </ref>
+
-
*[[Сериальный критерий Шахнесси]] <ref> ''Кобзарь А. И.'' Прикладная математическая статистика. — М.:&nbsp;Физматлит, 2006, c. 530 </ref>
+
-
*[[Критерий Олмстеда]]<ref> ''Кобзарь А. И.'' Прикладная математическая статистика. — М.:&nbsp;Физматлит, 2006, c. 532 </ref>
+
-
*[[Критерий Бартелса]] <ref> ''Кобзарь А. И.'' Прикладная математическая статистика. — М.:&nbsp;Физматлит, 2006, c. 540 </ref>
+
-
*[[Критерий кумулятивной суммы]] <ref> ''Кобзарь А. И.'' Прикладная математическая статистика. — М.:&nbsp;Физматлит, 2006, c. 541 </ref>
+
-
*[[Знаково-ранговый критерий Холлина]] <ref> ''Кобзарь А. И.'' Прикладная математическая статистика. — М.:&nbsp;Физматлит, 2006, c. 542 </ref>
+
-
=== Критерии симметрии ===
+
'''Пример 1.'''
-
Пусть задана [[простая выборка]]
+
Первая выборка — это пациенты, которых лечили препаратом&nbsp;А.
-
<tex> x_1, \dots, x_n </tex> c плотностью <tex>f(x)</tex>
+
Вторая выборка — пациенты, которых лечили препаратом&nbsp;Б.
-
Проверяется гипотеза о том, что плотность распределения симметрична относительно своего центра <tex>a</tex>.
+
Значения в выборках — это некоторая характеристика эффективности лечения (уровень метаболита в крови, температура через три дня после начала лечения, срок выздоровления, число койко-дней, и т.д.)
 +
Требуется выяснить, имеется ли значимое различие эффективности препаратов&nbsp;А&nbsp;и&nbsp;Б, или различия являются чисто случайными и объясняются «естественной» дисперсией выбранной характеристики.
-
Возможная формулировка нулевой гипотезы:
+
'''Пример 2.'''
-
<tex>H_0: f(a + x) = f(a-x) </tex>.
+
Первая выборка это поля, обработанные агротехническим методом&nbsp;А.
-
*[[Критерий Уилкоксона-Манна-Уитни|Одновыборочный критерий Уилкоксона]] <ref> ''Кобзарь А. И.'' Прикладная математическая статистика. — М.:&nbsp;Физматлит, 2006, c. 339 </ref>
+
Вторая выборка — поля, обработанные агротехническим методом&nbsp;Б.
-
*[[Критерий симметрии Смирнова]]<ref> ''Кобзарь А. И.'' Прикладная математическая статистика. — М.:&nbsp;Физматлит, 2006, c. 337 </ref>
+
Значения в выборках это урожайность.
-
*[[Критерий Фрэйзера]] <ref> ''Кобзарь А. И.'' Прикладная математическая статистика. М.:&nbsp;Физматлит, 2006, c. 350 </ref>
+
Требуется выяснить, является ли один из методов эффективнее другого, или различия урожайности обусловлены случайными факторами.
-
*[[Критерий Антилла—Керетинга—Цуккини]] <ref> ''Кобзарь А. И.'' Прикладная математическая статистика. — М.:&nbsp;Физматлит, 2006, c. 340 </ref>
+
-
*[[Критерий Бхатачарья-Гаствирта-Райта]] <ref> ''Кобзарь А. И.'' Прикладная математическая статистика. — М.:&nbsp;Физматлит, 2006, c. 342 </ref>
+
-
=== Критерии корреляции ===
+
-
Задана выборка пар наблюдений <tex>(x_i, y_i)</tex> объёма <tex>n</tex>
+
-
Проверяется гипотеза о наличии корреляции между случайными величинами <tex>x</tex>
+
-
и <tex>y</tex>. Для проверки этой гипотезы используются критерии, основанные на различных коэффициентах
+
-
[[Ранговая корреляция|ранговой корреляции]].
+
-
*[[коэффициент корреляции Кенделла|Критерий Кенделла]] <ref> ''Кобзарь А. И.'' Прикладная математическая статистика. М.:&nbsp;Физматлит, 2006, c. 624 </ref>
+
-
*[[коэффициент корреляции Спирмена|Критерий Спирмена]] <ref> ''Кобзарь А. И.'' Прикладная математическая статистика. — М.:&nbsp;Физматлит, 2006, c. 626 </ref>
+
-
*[[Критерий Ширахатэ]] <ref> ''Кобзарь А. И.'' Прикладная математическая статистика. М.:&nbsp;Физматлит, 2006, c. 630 </ref>
+
-
*[[Критерий Гёфдинга]] <ref> ''Кобзарь А. И.'' Прикладная математическая статистика. — М.:&nbsp;Физматлит, 2006, c. 628 </ref>
+
-
*[[Критерий корреляции Фишера-Йэйтса]] <ref> ''Кобзарь А. И.'' Прикладная математическая статистика. — М.:&nbsp;Физматлит, 2006, c. 632 </ref>
+
-
*[[Критерий корреляции Ван дер Вардена ]]<ref> ''Кобзарь А. И.'' Прикладная математическая статистика. — М.:&nbsp;Физматлит, 2006, c. 633 </ref>
+
-
Обобщением [[Ранговая корреляция|ранговой корреляции]] на случай нескольких выборок является ''коэффициент конкордации''. На её основе строятся тесты для анализа корреляции нескольких выборок.
+
-
*[[Конкордация Кенделла|Коэффициент конкордации Кенделла]] <ref> ''Кобзарь А. И.'' Прикладная математическая статистика. — М.:&nbsp;Физматлит, 2006, c. 634 </ref>
+
-
*[Коэффициент конкордации Шукени-Фроли]] <ref> ''Кобзарь А. И.'' Прикладная математическая статистика. — М.:&nbsp;Физматлит, 2006, c. 636 </ref>
+
-
=== Критерии сдвига и масштаба ===
+
-
==== Критерии сдвига ====
+
-
Проверяется гипотеза сдвига, согласно которой распределения двух выборок имеют одинаковую форму и отличаются только сдвигом на константу.
+
-
Пусть заданы две выборки
+
-
<tex>x^m = (x_1,\ldots,x_m),\; x_i \in \mathbb{R};\;\; y^n = (y_1,\ldots,y_n),\; y_i \in \mathbb{R}</tex>,взятые из неизвестных непрерывных распределений <tex>F(x)</tex> и <tex>G(y)</tex> соответственно.
+
-
Нулевая гипотеза <tex>H_0: \quad F(x) = G(y - \mu)</tex>
+
'''Пример 3.'''
 +
Первая выборка это дни, когда в супермаркете проходила промо-акция типа&nbsp;А (красные ценники со скидкой).
 +
Вторая выборка — дни промо-акции типа&nbsp;Б (каждая пятая пачка бесплатно).
 +
Значения в выборках — это показатель эффективности промо-акции (объём продаж, либо выручка в рублях).
 +
Требуется выяснить, какой из типов промо-акции более эффективен.
-
Наиболее частая альтернативная гипотеза - <tex>H_1: \quad F(x) \ne G(y - \mu)</tex>.
+
== Описание критерия ==
-
* [[Критерий Уилкоксона-Манна-Уитни]] <ref> ''Кобзарь А. И.'' Прикладная математическая статистика. — М.:&nbsp;Физматлит, 2006, c. 454 </ref>
+
Заданы две выборки <tex>x^m = (x_1,\ldots,x_m),\; x_i \in \mathbb{R};\;\; y^n = (y_1,\ldots,y_n),\; y_i \in \mathbb{R}</tex>.
-
* [[Критерий Фишера-Йэйтса-Терри-Гёфдинга]] <ref> ''Кобзарь А. И.'' Прикладная математическая статистика. — М.:&nbsp;Физматлит, 2006, c. 459 </ref>
+
-
* [[Критерий Ван дер Вардена ]] <ref> ''Кобзарь А. И.'' Прикладная математическая статистика. — М.:&nbsp;Физматлит, 2006, c. 460 </ref>
+
-
* [[Медианный критерий]] <ref> ''Кобзарь А. И.'' Прикладная математическая статистика. — М.:&nbsp;Физматлит, 2006, c. 462</ref>
+
-
* [[Критерий Хаги]] <ref> ''Кобзарь А. И.'' Прикладная математическая статистика. — М.:&nbsp;Физматлит, 2006, c. 464 </ref>
+
-
* [[E-Критерий]] <ref> ''Кобзарь А. И.'' Прикладная математическая статистика. — М.:&nbsp;Физматлит, 2006, c. 465 </ref>
+
-
Кроме критериев, проверяющих гипотезу сдвига для двух совокупностей, существует большое
+
'''Дополнительные предположения:'''
-
количество тестов для проверки гипотезы сдвига среди нескольких совокупностей. Далее приведены
+
* обе выборки [[простая выборка|простые]], объединённая выборка [[независимая выборка|независима]];
-
некоторые из них:
+
* выборки взяты из неизвестных непрерывных распределений <tex>F(x)</tex> и <tex>G(y)</tex> соответственно.
-
*[[Критерий Краскела-Уоллиса]] <ref> ''Кобзарь А. И.'' Прикладная математическая статистика. — М.:&nbsp;Физматлит, 2006, c. 466 </ref>
+
-
*[[Критерий Краузе]] <ref> ''Кобзарь А. И.'' Прикладная математическая статистика. — М.:&nbsp;Физматлит, 2006, c.481 </ref>
+
-
*[[Критерий Пейджа]] <ref> ''Кобзарь А. И.'' Прикладная математическая статистика. — М.:&nbsp;Физматлит, 2006, c.482 </ref>
+
-
*[[Критерий Вилкоксона-Вилкокс]] <ref> ''Кобзарь А. И.'' Прикладная математическая статистика. — М.:&nbsp;Физматлит, 2006, c. 471 </ref>
+
-
*[[Критерий Джонкхиера]] <ref> ''Кобзарь А. И.'' Прикладная математическая статистика. — М.:&nbsp;Физматлит, 2006, c. 477 </ref>
+
-
*[[Критерий Неменьи]] <ref> ''Кобзарь А. И.'' Прикладная математическая статистика. — М.:&nbsp;Физматлит, 2006, c. 469 </ref>
+
-
*[[Критерий Хеттманспергера ]] <ref> ''Кобзарь А. И.'' Прикладная математическая статистика. — М.:&nbsp;Физматлит, 2006, c. 476 </ref>
+
-
*[[Критерий Фридмена-Кендалла-Бэбингтона-Смита]] <ref> ''Кобзарь А. И.'' Прикладная математическая статистика. — М.:&nbsp;Физматлит, 2006, c. 484 </ref>
+
-
*[[Критерий Хеттманспергера]] <ref> ''Кобзарь А. И.'' Прикладная математическая статистика. — М.:&nbsp;Физматлит, 2006, c. 476 </ref>
+
-
*[[Критерий Андерсона-Каннемана-Шэча]] <ref> ''Кобзарь А. И.'' Прикладная математическая статистика. — М.:&nbsp;Физматлит, 2006, c. 486 </ref>
+
-
*[[Критерий Кендалла-Эренберга]] <ref> ''Кобзарь А. И.'' Прикладная математическая статистика. — М.:&nbsp;Физматлит, 2006, c. 489 </ref>
+
-
*[[Критерий Ходжеса-Лемана-Сена]] <ref> ''Кобзарь А. И.'' Прикладная математическая статистика. — М.:&nbsp;Физматлит, 2006, c. 490 </ref>
+
-
'''Критерии масштаба'''
+
'''[[Нулевая гипотеза]]''' <tex>H_0:\; F(x) = G(y)</tex>.
-
Для двух выборок
+
-
<tex>x^m = (x_1,\ldots,x_m),\; x_i \in \mathbb{R};\;\; y^n = (y_1,\ldots,y_n),\; y_i \in \mathbb{R}</tex>.
+
-
проверяется гипотеза о том, что они принадлежат одному и тому же распределению,
+
-
но с разным параметром масштаба.
+
-
Если плотность распределения первой выборки — <tex>f(x)</tex>, а второй выборки —
+
-
<tex>\frac{1}{\tau}f( \frac{x}{\tau})</tex>, то нулевая гипотеза <tex>H_0: \tau \ne 1</tex>.
+
-
*[[Критерий Ансари—Бредли]] <ref> ''Кобзарь А. И.'' Прикладная математическая статистика. — М.:&nbsp;Физматлит, 2006, c. 492 </ref>
+
'''Статистика критерия:'''
-
*[[Критерий Сижела-Тьюки]] <ref> ''Кобзарь А. И.'' Прикладная математическая статистика. — М.:&nbsp;Физматлит, 2006, c. 495 </ref>
+
# Построить общий [[вариационный ряд]] объединённой выборки <tex>x^{(1)} \leq \cdots \leq x^{(m+n)}</tex> и найти ранги <tex>r(x_i),\; r(y_i)</tex> всех элементов обеих выборок в общем вариационном ряду.
-
*[[Критерий Критерий Кейпена]] <ref> ''Кобзарь А. И.'' Прикладная математическая статистика. — М.:&nbsp;Физматлит, 2006, c. 496 </ref>
+
# Вычислить суммарные ранги обеих выборок и статистику Манна-Уитни <tex>U</tex>:
-
*[[Критерий Клотца]] <ref> ''Кобзарь А. И.'' Прикладная математическая статистика. — М.:&nbsp;Физматлит, 2006, c. 499 </ref>
+
::<tex>R_x = \sum_{i=1}^m r(x_i);\;\;\;\; U_x = mn + \frac12m(m+1) - R_x;</tex>
-
*[[Критерий Сэвиджа]] <ref> ''Кобзарь А. И.'' Прикладная математическая статистика. — М.:&nbsp;Физматлит, 2006, c. 502 </ref>
+
::<tex>R_y = \sum_{i=1}^n r(y_i);\;\;\;\; U_y = mn + \frac12n(n+1) - R_y;</tex>
-
*[[Критерий Муда]] <ref> ''Кобзарь А. И.'' Прикладная математическая статистика. — М.:&nbsp;Физматлит, 2006, c. 504 </ref>
+
::<tex>U = \min\left\{U_x,U_y\right\}.</tex>
-
*[[Критерий Сукхатме]] <ref> ''Кобзарь А. И.'' Прикладная математическая статистика. — М.:&nbsp;Физматлит, 2006, c. 505 </ref>
+
-
*[[Критерий Сэндвика-Олсона]] <ref> ''Кобзарь А. И.'' Прикладная математическая статистика. — М.:&nbsp;Физматлит, 2006, c. 507 </ref>
+
-
*[[Критерий Камата]] <ref> ''Кобзарь А. И.'' Прикладная математическая статистика. — М.:&nbsp;Физматлит, 2006, c. 509 </ref>
+
-
*[[Комбинированный критерий Буша-Винда]] <ref> ''Кобзарь А. И.'' Прикладная математическая статистика. — М.:&nbsp;Физматлит, 2006, c. 511 </ref>
+
-
*[[Критерий Бхапкара-Дешпанде]] <ref> ''Кобзарь А. И.'' Прикладная математическая статистика. — М.:&nbsp;Физматлит, 2006, c. 514 </ref>
+
-
== Примечания ==
+
Замечание: менее рациональный способ вычисления статистик Манна-Уитни <tex>U_x,\: U_y</tex>:
-
{{список примечаний}}
+
::<tex>U_x = \sum_{i=1}^m \sum_{j=1}^n \left[ x_i < y_j\right];</tex>
 +
::<tex>U_y = \sum_{i=1}^m \sum_{j=1}^n \left[ x_i > y_j\right].</tex>
 +
 
 +
'''Критерий''' (при [[уровень значимости|уровне значимости]] <tex>\alpha</tex>):
 +
 
 +
 
 +
* против альтернативы <tex>H_1:\; \mathbb{P} \{ x<y \} \neq 1/2</tex>
 +
::если <tex> U \notin \left[ U_{\alpha/2},\, U_{1-\alpha/2} \right] </tex>, то нулевая гипотеза отвергается;
 +
 
 +
* против альтернативы <tex>H'_1:\; \mathbb{P} \{ x<y \} > 1/2</tex>
 +
::если <tex> U_x > U_{1-\alpha} </tex>, то нулевая гипотеза отвергается;
 +
 
 +
* против альтернативы <tex>H''_1:\; \mathbb{P} \{ x<y \} < 1/2</tex>
 +
::если <tex> U_y > U_{1-\alpha} </tex>, то нулевая гипотеза отвергается;
 +
где
 +
<tex> U_{\alpha} </tex> есть <tex>\alpha</tex>-[[квантиль]] табличного распределения Уилкоксона-Манна-Уитни с параметрами <tex>m,\,n</tex>.
 +
 
 +
'''Асимптотический критерий''':
 +
нормированная и центрированная статистика Манна-Уитни
 +
::<tex>\tilde U = \frac{U-\frac12mn}{\sqrt{\frac1{12}mn(m+n+1)}}</tex>
 +
асимптотически имеет стандартное нормальное распределение при <tex>m,\,n > 8</tex>.
 +
 
 +
== Свойства и границы применимости U-критерия ==
 +
 
 +
Иногда ошибочно считают, что U-критерий проверяет нулевую [[гипотеза однородности|гипотезу однородности]]
 +
<tex>H_{00}:\; F(x)=G(y)</tex>, то есть что две выборки взяты из одного и того же распределения.
 +
U-критерий не является состоятельным против общей альтернативы
 +
<tex>H_1:\; F(x) \neq G(y)</tex>.
 +
Это означает, что гипотеза однородности будет приниматься чаще, чем она на самом деле верна.
 +
Существуют ситуации, когда гипотеза <tex>H_{0}</tex> верна, а более сильная гипотеза однородности <tex>H_{00}</tex> не верна [Орлов].
 +
Для проверки [[гипотеза однородности|однородности]] существуют более мощные критерии, в частности, [[критерий Смирнова]] или [[критерий Лемана-Розенблатта]].
 +
 
 +
Иногда ошибочно считают, что U-критерий проверяет нулевую гипотезу равенства медиан в двух выборках.
 +
Существуют распределения, для которых гипотеза <tex>H_{0}</tex> верна, но их медианы различны.
 +
 
 +
U-критерий можно применять для проверки [[гипотеза сдвига|гипотезы сдвига]] в качестве альтернативной
 +
<tex>H_{1}:\; F(x)=G(x+r)</tex>, где <tex>r</tex> — некоторая константа, отличная от нуля.
 +
При этой альтернативе U-критерий является [[состоятельный критерий|состоятельным]].
 +
Его целесообразно применять, если одним и тем же прибором проводятся две серии измерений двух значений некоторой физической величины. При этом функция распределения <tex>G(x)</tex> описывает погрешности измерения одного значения, а <tex>G(x+r)</tex> — другого. Однако во многих приложениях (в&nbsp;частности, эконометрических) нет особых оснований предполагать, что распределение второй выборки лишь сдвигается, но не меняется каким-либо иным образом.
 +
 
 +
U-критерий является непараметрическим аналогом [[Критерий Стьюдента|критерия Стьюдента]].
 +
Если [[нормальная выборка|выборки нормальные]], то для проверки гипотезы сдвига предпочтительно применить более мощный критерий Стьюдента.
 +
 
 +
== История ==
 +
Критерий был предложен Ван-дер-Варденом в 1953 году
== Литература ==
== Литература ==
 +
# ''ван дер Варден Б.Л.'' Математическая статистика/Пер.с нем. — М.:&nbsp; Иностранная литература,1960 — 450&nbsp;c.
# ''Кобзарь А. И.'' Прикладная математическая статистика. — М.:&nbsp;Физматлит, 2006. — 816&nbsp;с.
# ''Кобзарь А. И.'' Прикладная математическая статистика. — М.:&nbsp;Физматлит, 2006. — 816&nbsp;с.
-
# ''Hajek J., Sidak Z., Sen K. P.'' Theory of rank tests(second edition). — Academic Press, 1999. - 450&nbsp;p.
 
-
 
-
== См. также ==
 
-
*[[Проверка статистических гипотез]]
 
-
*[[Статистика (функция выборки)]]
 
-
*[[Вариационный ряд]]
 
-
*[[Ранговая корелляция]]
 
 +
== См. также ==
 +
* [[Проверка статистических гипотез]] — о методологии проверки статистических гипотез.
 +
* [[Статистика (функция выборки)]]
 +
* [[Критерий Стьюдента]]
== Ссылки ==
== Ссылки ==
-
[http://en.wikipedia.org/wiki/Rank_correlation| Rank correlation]
 
-
 
 +
[[Категория:Статистические тесты]]
 +
[[Категория:Непараметрические статистические тесты]]
{{Задание|Slimper|Vokov|08 января 2010}}
{{Задание|Slimper|Vokov|08 января 2010}}

Версия 09:35, 6 января 2010

Критерий Ван-дер-Варденанепараметрический статистический критерий, используемый для оценки различий между двумя выборками по признаку, измеренному в количественной шкале. Критерий является ранговым, поэтому он инвариантен по отношению к любому монотонному преобразованию шкалы измерения.

Содержание

Примеры задач

Пример 1. Первая выборка — это пациенты, которых лечили препаратом А. Вторая выборка — пациенты, которых лечили препаратом Б. Значения в выборках — это некоторая характеристика эффективности лечения (уровень метаболита в крови, температура через три дня после начала лечения, срок выздоровления, число койко-дней, и т.д.) Требуется выяснить, имеется ли значимое различие эффективности препаратов А и Б, или различия являются чисто случайными и объясняются «естественной» дисперсией выбранной характеристики.

Пример 2. Первая выборка — это поля, обработанные агротехническим методом А. Вторая выборка — поля, обработанные агротехническим методом Б. Значения в выборках — это урожайность. Требуется выяснить, является ли один из методов эффективнее другого, или различия урожайности обусловлены случайными факторами.

Пример 3. Первая выборка — это дни, когда в супермаркете проходила промо-акция типа А (красные ценники со скидкой). Вторая выборка — дни промо-акции типа Б (каждая пятая пачка бесплатно). Значения в выборках — это показатель эффективности промо-акции (объём продаж, либо выручка в рублях). Требуется выяснить, какой из типов промо-акции более эффективен.

Описание критерия

Заданы две выборки x^m = (x_1,\ldots,x_m),\; x_i \in \mathbb{R};\;\; y^n = (y_1,\ldots,y_n),\; y_i \in \mathbb{R}.

Дополнительные предположения:

  • обе выборки простые, объединённая выборка независима;
  • выборки взяты из неизвестных непрерывных распределений F(x) и G(y) соответственно.

Нулевая гипотеза H_0:\; F(x) = G(y).

Статистика критерия:

  1. Построить общий вариационный ряд объединённой выборки x^{(1)} \leq \cdots \leq x^{(m+n)} и найти ранги r(x_i),\; r(y_i) всех элементов обеих выборок в общем вариационном ряду.
  2. Вычислить суммарные ранги обеих выборок и статистику Манна-Уитни U:
R_x = \sum_{i=1}^m r(x_i);\;\;\;\; U_x = mn + \frac12m(m+1) - R_x;
R_y = \sum_{i=1}^n r(y_i);\;\;\;\; U_y = mn + \frac12n(n+1) - R_y;
U = \min\left\{U_x,U_y\right\}.

Замечание: менее рациональный способ вычисления статистик Манна-Уитни U_x,\: U_y:

U_x = \sum_{i=1}^m \sum_{j=1}^n \left[ x_i < y_j\right];
U_y = \sum_{i=1}^m \sum_{j=1}^n \left[ x_i > y_j\right].

Критерий (при уровне значимости \alpha):


  • против альтернативы H_1:\; \mathbb{P} \{ x<y \} \neq 1/2
если  U \notin \left[ U_{\alpha/2},\, U_{1-\alpha/2} \right] , то нулевая гипотеза отвергается;
  • против альтернативы H'_1:\; \mathbb{P} \{ x<y \} > 1/2
если  U_x > U_{1-\alpha} , то нулевая гипотеза отвергается;
  • против альтернативы H''_1:\; \mathbb{P} \{ x<y \} < 1/2
если  U_y > U_{1-\alpha} , то нулевая гипотеза отвергается;

где  U_{\alpha} есть \alpha-квантиль табличного распределения Уилкоксона-Манна-Уитни с параметрами m,\,n.

Асимптотический критерий: нормированная и центрированная статистика Манна-Уитни

\tilde U = \frac{U-\frac12mn}{\sqrt{\frac1{12}mn(m+n+1)}}

асимптотически имеет стандартное нормальное распределение при m,\,n > 8.

Свойства и границы применимости U-критерия

Иногда ошибочно считают, что U-критерий проверяет нулевую гипотезу однородности H_{00}:\; F(x)=G(y), то есть что две выборки взяты из одного и того же распределения. U-критерий не является состоятельным против общей альтернативы H_1:\; F(x) \neq G(y). Это означает, что гипотеза однородности будет приниматься чаще, чем она на самом деле верна. Существуют ситуации, когда гипотеза H_{0} верна, а более сильная гипотеза однородности H_{00} не верна [Орлов]. Для проверки однородности существуют более мощные критерии, в частности, критерий Смирнова или критерий Лемана-Розенблатта.

Иногда ошибочно считают, что U-критерий проверяет нулевую гипотезу равенства медиан в двух выборках. Существуют распределения, для которых гипотеза H_{0} верна, но их медианы различны.

U-критерий можно применять для проверки гипотезы сдвига в качестве альтернативной H_{1}:\; F(x)=G(x+r), где r — некоторая константа, отличная от нуля. При этой альтернативе U-критерий является состоятельным. Его целесообразно применять, если одним и тем же прибором проводятся две серии измерений двух значений некоторой физической величины. При этом функция распределения G(x) описывает погрешности измерения одного значения, а G(x+r) — другого. Однако во многих приложениях (в частности, эконометрических) нет особых оснований предполагать, что распределение второй выборки лишь сдвигается, но не меняется каким-либо иным образом.

U-критерий является непараметрическим аналогом критерия Стьюдента. Если выборки нормальные, то для проверки гипотезы сдвига предпочтительно применить более мощный критерий Стьюдента.

История

Критерий был предложен Ван-дер-Варденом в 1953 году

Литература

  1. ван дер Варден Б.Л. Математическая статистика/Пер.с нем. — М.:  Иностранная литература,1960 — 450 c.
  2. Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006. — 816 с.

См. также

Ссылки

Данная статья является непроверенным учебным заданием.
Студент: Участник:Slimper
Преподаватель: Участник:Vokov
Срок: 08 января 2010

До указанного срока статья не должна редактироваться другими участниками проекта MachineLearning.ru. По его окончании любой участник вправе исправить данную статью по своему усмотрению и удалить данное предупреждение, выводимое с помощью шаблона {{Задание}}.

См. также методические указания по использованию Ресурса MachineLearning.ru в учебном процессе.


Личные инструменты