Критерий Краскела-Уоллиса

Материал из MachineLearning.

(Различия между версиями)

Версия 19:24, 17 ноября 2008

Критерий Краскела-Уоллиса предназначена для проверки равенства средних нескольких выборок. Данный критерий является многомерным обобщением критерия Уилкоксона-Манна-Уитни. Критерий Краскела-Уоллиса является ранговым, поэтому он инвариантен по отношению к любому монотонному преобразованию шкалы измерения. Известен так же под названиями: критерий Крускала-Уоллиса,H-критерий Краскела-Уоллиса, Kruskal-Wallis one-way analysis of variance, Kruskal-Wallis test.

Содержание

1 Примеры задач
2 Описание критерия
- 2.1 Аппроксимация Краскела-Уоллиса
- 2.2 Аппроксимация Имана-Давенпорта
3 См. также
4 Литература
5 Ссылки

Примеры задач

Пример 1. Проходит чемпионат мира по футболу. Первая выборка —- опрос болельщиков с вопросом "Каковы шансы на победу сборной России?" до начала чемпионата. Вторая выборка —- после первой игры, третья —- после второго матча и т.д. Значения в выборках — шансы России на победу по десятибальной шкале (1 —- никаких перспектив, 10 —- отвезти в Россию кубок —- дело времени). Требуется проверить, зависят ли результаты опросов от хода чемпионата.

Описание критерия

Заданы k выборок: $x_1^{n_1}=\left\{x_{11},\dots,x_{1n_1}\right\}, \dots, x_k^{n_k}=\left\{x_{k1},\dots,x_{kn_k}\right\}$ . Объединённая выборка: $x=x_1^{n_1}\cup x_2^{n_2}\cup \dots \cup x_k^{n_k}$ .

Дополнительные предположения:

обе выборки простые, объединённая выборка независима;
выборки взяты из неизвестных непрерывных распределений $F_1(x),\dots,F_k(x)$ .

Проверяется нулевая гипотеза $H_0:\; F_1(x)=\dots=F_k(x)$ при альтернативе $H_1:\; F_1(x)=F_2(x-\Delta_1)=\dots=F_k(x-\Delta_{k-1})$ .

Упорядочим все $N=\sum_{i=1}^k n_i$ элементов выборок по возрастанию и обозначим $R_{ij}$ ранг j-го элемента i-й выборки в полученном вариационном ряду.

Статистика критерия Краскела-Уоллиса для проверки гипотезы о наличии сдвига в параметрах положения двух сравниваемых выборок имеет вид

$H=\sum_{i=1}^k \left( 1-\frac{n_i}{N} \right) \left\{ \frac{\bar{R}_i-\frac{N+1}{2}}{\sqrt{\frac{(N-n_i)(N+1)}{12n_i}}} \right\} ^{\frac{1}{2}}=\frac{12}{N(N+1)}\sum_{i=1}^k \left( \bar{R}_i-\frac{N+1}{2} \right) ^2 = \frac{12}{N(N+1)} \sum_{i=1}^k \frac{R_i^2}{n_i}-3(N+1),$

где $R_i=\sum_{j=1}^k R_{ij};\: \bar{R}_i=\frac{1}{n_i}R_i$ .

Гипотеза сдвига отклоняется на уровне значимости $\alpha$ , если $H \ge H_{\alpha}$ , где $H_{\alpha}$ — критическое значение, при $k \le 5$ и $n_i \le 8$ вычисляемое по таблицам. При бОльших значениях применимы различные аппроксимации.

Аппроксимация Краскела-Уоллиса

Пусть

$M=\frac{N^3-\sum_{i=1}^k n_i^3}{N(N+1)};\; \nu_1=(k-1)\frac{(k-1)(M-k+1)-V}{\frac{1}{2}MV}; \nu_2==\frac{M-k+1}{k-1}\nu_1;\; V=2(k-1)-\frac{2\left\{3k^2-6k+N(2k^2-6k+1)\right\}}{5N(N+1)}-\frac{6}{5} \sum_{i=1}^k \frac{1}{n_i}.$

Тогда статистика

$F=\frac{H(M-k+1)}{(k-1)(M-H)}$

будет иметь при отсутствии сдвига F-распределение с $\nu_1$ и $\nu_2$ степенями свободы. Таким образом, нулевая гипотеза отклоняется с достоверностью $\alpha$ , если $F>F_{\alpha}(\nu_1,\nu_2)$ .

Аппроксимация Имана-Давенпорта

В соответстви с ней нулевая гипотеза сдвига отклоняется с достоверностью $\alpha$ , если $J \ge J_{\alpha}$ , где

$M=\frac{H}{2}\left(1+\frac{N-k}{N-1-H}\right);\; J_{\alpha}=\left\{(k-1)F_{\alpha}(k-1;N-l)+\chi_{\alpha}^2(k-1)\right},$

$F_{\alpha}(f_1;f_2)$ и $\chi_{\alpha}^2(a)$ — соответственно критические значения статистик Фишера и хи-квадрат с соответствующими степенями свободы.

Это более точная аппроксимация, чем аппроксимация Краскела-Уоллиса. При наличии связанных рангов (т.е. когда совпадают значения величин из разных выборок и им присваиваются одинаковые средние ранги) необходимо использовать модифицированную статистику $H*=H\left\{1-\left(\sum_{j=1}^q \frac{T_j}{N^3-N} \right) \right\} ^{-1},$ где $T_j=t_j^3-t_j;\; t_j$ — размер j-й группы одинаковых элементов; q — количество групп одинаковых элементов. При $n_i \ge 20$ справедлива аппроксимация распределения статистики $H;\; \chi^2$ -распределением с f=k-1 степенями свободы, т.е. нулевая гипотеза отклоняется, если $H \ge \chi_{\alpha}^2(k-1)$ .

См. также

Литература

Kruskal W. H. and Wallis W. A. Use of ranks in one-criterion variance analysis. // Journal of the American Statistical Association. — 1952, 47 №260. — Pp. 583–621.
Ликеш И., Ляга Й. Основные таблицы математической статистики. — М.: Финансы и статистика, 1985.
Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006. — 466-468 с.

Ссылки

Источник — «http://machinelearning.ru/wiki/index.php?title=%D0%9A%D1%80%D0%B8%D1%82%D0%B5%D1%80%D0%B8%D0%B9_%D0%9A%D1%80%D0%B0%D1%81%D0%BA%D0%B5%D0%BB%D0%B0-%D0%A3%D0%BE%D0%BB%D0%BB%D0%B8%D1%81%D0%B0»

@@ Строка 15: / Строка 15: @@
 == Описание критерия ==
-Заданы <i>k</i> выборок: <tex>x_1^{n_1}=\left\{x_11,\dots,x_{1n_1}\right\}, \dots, x_k^{n_k}=\left\{x_k1,\dots,x_{kn_k}\right\}</tex>.
+Заданы <i>k</i> выборок: <tex>x_1^{n_1}=\left\{x_{11},\dots,x_{1n_1}\right\}, \dots, x_k^{n_k}=\left\{x_{k1},\dots,x_{kn_k}\right\}</tex>.
 Объединённая выборка: <tex>x=x_1^{n_1}\cup x_2^{n_2}\cup \dots \cup x_k^{n_k}</tex>.

Критерий Краскела-Уоллиса

Материал из MachineLearning.

Версия 19:24, 17 ноября 2008

Содержание

Примеры задач

Описание критерия

Аппроксимация Краскела-Уоллиса

Аппроксимация Имана-Давенпорта

См. также

Литература

Ссылки

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты