WM-критерий

Материал из MachineLearning.

Версия от 17:00, 18 февраля 2014; Peter Romov (Обсуждение | вклад)

(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)

Это незавершённая статья. Вы поможете проекту, исправив и дополнив её.

WM-критерий — непараметрический ранговый критерий для проверки принадлежности двух независимых выборок к общей генеральной совокупности с одинаковыми характеристиками рассеяния. В отличие от критерия Зигеля-Тьюки не требует предположения о равенстве средних в выборках.

Коротко, идея метода следующая. По двум выборкам подсчитываются модули разностей значений наблюдений, взятых наугад без возвращения. К получившимся выборкам модулей разностей применяется U-критерий Манна-Уитни о равенстве медиан.

Примеры задач

Менеджер по кейтерингу хочет проверить, одинакова ли дисперсия количества соуса в упаковке при расфасовке с помощью двух диспенсеров. Каждым из диспенсеров он наполнил 10 упаковок. Возможно, диспенсеры откалиброваны по-разному (нет требования равенства медиан).

H₀ : дисперсия количества соуса в упаковке не отличается для двух диспенсеров.

H₁ : дисперсия количества соуса в упаковке для двух диспенсеров отличается.

Другой пример: предположим, существует два альтернативных агротехнических метода обработки полей. Для каждого такого метода составим выборку из обработанных им полей. Значение в выборке равно урожайности данного поля. Требуется найти наиболее эффективный метод.

Описание критерия

Пусть имеются две выборки:

$X_1^{n_1} = (X_{11},\ldots,X_{1n_1}),\; X_{1i} \sim F(t)$

$X_2^{n_2} = (X_{21},\ldots,X_{2n_2}),\; X_{2i} \sim G(t) = F(\frac{t-\mu}{\sigma})$ .

Параметр местоположения $\mu$ неизвестен, предположения о симметрии распределения $F(t)$ не делается.

Нулевая гипотеза:

H₀: $\sigma = 1$ (Выборки имеют одинаковый разбросс)

Против альтернатив:

H₁: $\sigma <\neq> 1$

Генерируем вспомогательные выборки

$D_1^{N_1} = (|X_{1i} - X_{1j}|), \quad N_1 = \lfloor\frac{n_1}{2}\rfloor$

$D_2^{N_2} = (|X_{2i} - X_{2j}|), \quad N_2 = \lfloor\frac{n_2}{2}\rfloor$

Алгоритм порождения выборки $D_1$ : из $X_1$ берутся наугад без возвращения пары наблюдений $(X_{1i}, X_{1j})$ , в выборку $D_2$ добавляется $|X_{1i}-X_{1j}|$ , процесс продолжается до тех пор, пока в $X_1$ не останется наблюдений, либо останется одно наблюдение. Выборка $D_2$ порождается аналогично.