WM-критерий

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
Текущая версия (19:24, 18 февраля 2014) (править) (отменить)
(Примеры задач)
 
(5 промежуточных версий не показаны.)
Строка 1: Строка 1:
-
{{Заготовка}}
 
-
 
'''WM-критерий''' — непараметрический ранговый критерий для проверки принадлежности двух независимых выборок к общей генеральной совокупности с одинаковыми характеристиками рассеяния. В отличие от [[Критерий Зигеля-Тьюки|критерия Зигеля-Тьюки]] не требует предположения о равенстве средних в выборках.
'''WM-критерий''' — непараметрический ранговый критерий для проверки принадлежности двух независимых выборок к общей генеральной совокупности с одинаковыми характеристиками рассеяния. В отличие от [[Критерий Зигеля-Тьюки|критерия Зигеля-Тьюки]] не требует предположения о равенстве средних в выборках.
Строка 7: Строка 5:
==Примеры задач==
==Примеры задач==
-
Менеджер по [http://ru.wikipedia.org/wiki/Кейтеринг кейтерингу] хочет проверить, одинакова ли дисперсия количества соуса в упаковке при расфасовке с помощью двух диспенсеров. Каждым из диспенсеров он наполнил 10 упаковок. Возможно, диспенсеры откалиброваны по-разному (нет требования равенства медиан).
+
'''Пример 1.''' Менеджер по [http://ru.wikipedia.org/wiki/Кейтеринг кейтерингу] хочет проверить, одинакова ли дисперсия количества соуса в упаковке при расфасовке с помощью двух диспенсеров. Каждым из диспенсеров он наполнил 10 упаковок. Возможно, диспенсеры откалиброваны по-разному (нет требования равенства медиан).
::H<sub>0</sub> : дисперсия количества соуса в упаковке не отличается для двух диспенсеров.
::H<sub>0</sub> : дисперсия количества соуса в упаковке не отличается для двух диспенсеров.
::H<sub>1</sub> : дисперсия количества соуса в упаковке для двух диспенсеров отличается.
::H<sub>1</sub> : дисперсия количества соуса в упаковке для двух диспенсеров отличается.
Строка 20: Строка 18:
'''Нулевая гипотеза:'''
'''Нулевая гипотеза:'''
-
::H<sub>0</sub>: <tex>\sigma = 1</tex> (Выборки имеют одинаковый разбросс)
+
::H<sub>0</sub>: <tex>\sigma = 1</tex> (Выборки имеют одинаковый разброс)
'''Против альтернатив:'''
'''Против альтернатив:'''
Строка 39: Строка 37:
* [http://www.mathworks.com/matlabcentral/fileexchange/44995-wmtest Реализация WM-критерия для Matlab]
* [http://www.mathworks.com/matlabcentral/fileexchange/44995-wmtest Реализация WM-критерия для Matlab]
-
 
+
* Пример реализации на языке R:
-
Пример реализации на языке R:
+
<pre>
-
 
+
wm.test <- function(x, y, alternative=c("two.sided", "less", "greater")) {
-
 
+
x1 <- sample(x, 2*floor(length(x)/2))
 +
y1 <- sample(y, 2*floor(length(y)/2))
 +
x_diff <- abs(x1[1:(length(x1)/2)] - x1[(length(x1)/2+1):length(x1)])
 +
y_diff <- abs(y1[1:(length(y1)/2)] - y1[(length(y1)/2+1):length(y1)])
 +
return(wilcox.test(x_diff, y_diff, alternative))
 +
}
 +
</pre>
==Литература==
==Литература==

Текущая версия

WM-критерий — непараметрический ранговый критерий для проверки принадлежности двух независимых выборок к общей генеральной совокупности с одинаковыми характеристиками рассеяния. В отличие от критерия Зигеля-Тьюки не требует предположения о равенстве средних в выборках.

Коротко, идея метода следующая. По двум выборкам подсчитываются модули разностей значений наблюдений, взятых наугад без возвращения. К получившимся выборкам модулей разностей применяется U-критерий Манна-Уитни о сдвиге.

Содержание

Примеры задач

Пример 1. Менеджер по кейтерингу хочет проверить, одинакова ли дисперсия количества соуса в упаковке при расфасовке с помощью двух диспенсеров. Каждым из диспенсеров он наполнил 10 упаковок. Возможно, диспенсеры откалиброваны по-разному (нет требования равенства медиан).

H0 : дисперсия количества соуса в упаковке не отличается для двух диспенсеров.
H1 : дисперсия количества соуса в упаковке для двух диспенсеров отличается.

Описание критерия

Пусть имеются две простые независимые выборки:

X_1^{n_1} = (X_{11},\ldots,X_{1n_1}),\; X_{1i} \sim F(t)
X_2^{n_2} = (X_{21},\ldots,X_{2n_2}),\; X_{2i} \sim G(t) = F(\frac{t-\mu}{\sigma}) .

Параметр местоположения \mu неизвестен, предположения о симметрии распределения F(t) не делается.

Нулевая гипотеза:

H0: \sigma = 1 (Выборки имеют одинаковый разброс)

Против альтернатив:

H1: \sigma <\neq> 1

Подсчет статистики критерия: Генерируем вспомогательные выборки

D_1^{N_1} = (|X_{1i} - X_{1j}|), \quad N_1 = \lfloor\frac{n_1}{2}\rfloor
D_2^{N_2} = (|X_{2i} - X_{2j}|), \quad N_2 = \lfloor\frac{n_2}{2}\rfloor

Алгоритм порождения выборки D_1: из X_1 берутся наугад без возвращения пары наблюдений (X_{1i}, X_{1j}), в выборку D_2 добавляется |X_{1i}-X_{1j}|, процесс продолжается до тех пор, пока в X_1 не останется наблюдений, либо останется одно наблюдение. Выборка D_2 порождается аналогично.

В предположении H0, статистика U(D_1^{N_1}, D_2^{N_2}) U-критерия Мана-Уитни имеет табличное распределение.

Критерий может быть расширен на случай k выборок за счет использования критерия Краскела-Уоллиса (обобщение U-критерия).

Реализация

wm.test <- function(x, y, alternative=c("two.sided", "less", "greater")) {
    x1 <- sample(x, 2*floor(length(x)/2))
    y1 <- sample(y, 2*floor(length(y)/2))
    x_diff <- abs(x1[1:(length(x1)/2)] - x1[(length(x1)/2+1):length(x1)])
    y_diff <- abs(y1[1:(length(y1)/2)] - y1[(length(y1)/2+1):length(y1)])
    return(wilcox.test(x_diff, y_diff, alternative))
}

Литература

См. также

Личные инструменты