Критерий Краскела-Уоллиса
Материал из MachineLearning.
(→Ссылки) |
|||
(9 промежуточных версий не показаны.) | |||
Строка 1: | Строка 1: | ||
- | '''Критерий Краскела-Уоллиса''' предназначен для проверки равенства средних нескольких выборок. | + | '''Критерий Краскела-Уоллиса''' предназначен для проверки равенства средних нескольких выборок. Данный критерий является многовыборочным обобщением [[Критерий Уилкоксона-Манна-Уитни|критерия Уилкоксона-Манна-Уитни]]. Критерий Краскела-Уоллиса является ранговым, поэтому он инвариантен по отношению к любому монотонному преобразованию шкалы измерения. Известен так же под названиями: критерий Крускала-Уоллиса, <i>H</i>-критерий Краскела-Уоллиса, Kruskal-Wallis one-way analysis of variance, Kruskal-Wallis test. |
- | Данный критерий является многовыборочным обобщением [[Критерий Уилкоксона-Манна-Уитни|критерия Уилкоксона-Манна-Уитни]]. | + | |
- | Критерий Краскела-Уоллиса является ранговым, поэтому он инвариантен по отношению к любому монотонному преобразованию шкалы измерения. | + | |
- | Известен так же под названиями: критерий Крускала-Уоллиса,<i>H</i>-критерий Краскела-Уоллиса, Kruskal-Wallis one-way analysis of variance, Kruskal-Wallis test. | + | |
== Примеры задач == | == Примеры задач == | ||
Строка 8: | Строка 5: | ||
'''Пример 1.''' | '''Пример 1.''' | ||
Проходит чемпионат мира по футболу. | Проходит чемпионат мира по футболу. | ||
- | Первая выборка — | + | Первая выборка — опрос болельщиков с вопросом "Каковы шансы на победу сборной России?" до начала чемпионата. |
- | Вторая выборка — | + | Вторая выборка — после первой игры, третья — после второго матча и т.д. |
- | Значения в выборках — шансы России на победу по десятибальной шкале (1 — | + | Значения в выборках — шансы России на победу по десятибальной шкале (1 — никаких перспектив, 10 — отвезти в Россию кубок — дело времени). |
Требуется проверить, зависят ли результаты опросов от хода чемпионата. | Требуется проверить, зависят ли результаты опросов от хода чемпионата. | ||
Строка 24: | Строка 21: | ||
''Дополнительные предположения:'' | ''Дополнительные предположения:'' | ||
- | * | + | * все <i>k</i> выборок [[Простая выборка|простые]], объединённая выборка [[Независимая выборка|независима]]; |
* выборки взяты из неизвестных непрерывных распределений <tex>F_1(x),\dots,F_k(x)</tex>. | * выборки взяты из неизвестных непрерывных распределений <tex>F_1(x),\dots,F_k(x)</tex>. | ||
Строка 33: | Строка 30: | ||
Статистика критерия Краскела-Уоллиса для проверки гипотезы о наличии сдвига в параметрах положения сравниваемых выборок имеет вид <br /> | Статистика критерия Краскела-Уоллиса для проверки гипотезы о наличии сдвига в параметрах положения сравниваемых выборок имеет вид <br /> | ||
:: <tex>H=\sum_{i=1}^k \left( 1-\frac{n_i}{N} \right) \left\{ \frac{\bar{R}_i-\frac{N+1}{2}}{\sqrt{\frac{(N-n_i)(N+1)}{12n_i}}} \right\} ^{\frac{1}{2}}=\frac{12}{N(N+1)}\sum_{i=1}^k n_i \left( \bar{R}_i-\frac{N+1}{2} \right) ^2 = \frac{12}{N(N+1)} \sum_{i=1}^k \frac{R_i^2}{n_i}-3(N+1),</tex> <br /> | :: <tex>H=\sum_{i=1}^k \left( 1-\frac{n_i}{N} \right) \left\{ \frac{\bar{R}_i-\frac{N+1}{2}}{\sqrt{\frac{(N-n_i)(N+1)}{12n_i}}} \right\} ^{\frac{1}{2}}=\frac{12}{N(N+1)}\sum_{i=1}^k n_i \left( \bar{R}_i-\frac{N+1}{2} \right) ^2 = \frac{12}{N(N+1)} \sum_{i=1}^k \frac{R_i^2}{n_i}-3(N+1),</tex> <br /> | ||
- | где <tex>R_i=\sum_{j=1}^ | + | где <tex>R_i=\sum_{j=1}^{n_i} R_i^j;\: \bar{R}_i=\frac{R_i}{n_i}</tex>. |
При наличии связанных рангов (т.е. когда совпадают значения величин из разных выборок и им присваиваются одинаковые средние ранги) необходимо использовать модифицированную статистику <tex>H*=H\left\{1-\left(\sum_{j=1}^q \frac{T_j}{N^3-N} \right) \right\} ^{-1},</tex> где <tex>T_j=t_j^3-t_j;\; t_j</tex> — размер <i>j</i>-й группы одинаковых элементов; <i>q</i> — количество групп одинаковых элементов. | При наличии связанных рангов (т.е. когда совпадают значения величин из разных выборок и им присваиваются одинаковые средние ранги) необходимо использовать модифицированную статистику <tex>H*=H\left\{1-\left(\sum_{j=1}^q \frac{T_j}{N^3-N} \right) \right\} ^{-1},</tex> где <tex>T_j=t_j^3-t_j;\; t_j</tex> — размер <i>j</i>-й группы одинаковых элементов; <i>q</i> — количество групп одинаковых элементов. | ||
Строка 59: | Строка 56: | ||
Это более точная аппроксимация, чем аппроксимация Краскела-Уоллиса. | Это более точная аппроксимация, чем аппроксимация Краскела-Уоллиса. | ||
+ | |||
+ | == Критические значения критерия Краскела-Уоллиса при k<=5, n<=8 == | ||
+ | [[Изображение:Critical_values_for_Kruskal-Wallis_test.png|left|800px]] | ||
+ | <br clear="both" /> | ||
+ | |||
+ | |||
+ | == Критические значения критерия Краскела-Уоллиса при k<=6, n<=8 == | ||
+ | [[Изображение:Critical_values_for_Kruskal-Wallis_test_k6.png|left|800px]] | ||
+ | <br clear="both" /> | ||
== См. также == | == См. также == | ||
- | *[[Проверка статистических гипотез]] | + | * [[Проверка статистических гипотез]] |
- | *[[Критерий Уилкоксона-Манна-Уитни]] | + | * [[Критерий Уилкоксона-Манна-Уитни]] |
- | *[[Критерий знаков]] | + | * [[Критерий знаков]] |
- | * [http://ru.wikipedia.org/wiki/%D0%9A%D0%B2%D0%B0%D0%BD%D1%82%D0%B8%D0%BB%D0%B8_%D1%80%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D1%8F_%D1%85%D0%B8-%D0%BA%D0%B2%D0%B0%D0%B4%D1%80%D0%B0%D1%82 | + | * [[Квантили распределения хи-квадрат]] [http://ru.wikipedia.org/wiki/%D0%9A%D0%B2%D0%B0%D0%BD%D1%82%D0%B8%D0%BB%D0%B8_%D1%80%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D1%8F_%D1%85%D0%B8-%D0%BA%D0%B2%D0%B0%D0%B4%D1%80%D0%B0%D1%82 (ru_wiki)] |
- | + | ||
== Литература == | == Литература == | ||
Строка 76: | Строка 81: | ||
== Ссылки == | == Ссылки == | ||
- | *[http://en.wikipedia.org/wiki/Kruskal-Wallis_one-way_analysis_of_variance Wikipedia: Kruskal-Wallis one-way analysis of variance] | + | * [http://en.wikipedia.org/wiki/Kruskal-Wallis_one-way_analysis_of_variance Wikipedia: Kruskal-Wallis one-way analysis of variance] |
- | + | * [http://ami.nstu.ru/~headrd/seminar/publik_html/Homogeneity_averages.pdf О параметрических и непараметрических критериях проверки гипотез об однородности средних и их мощности на сайте Новосибирского государственного технического университета] | |
[[Категория: Прикладная статистика]] | [[Категория: Прикладная статистика]] | ||
[[Категория: Статистические тесты]] | [[Категория: Статистические тесты]] | ||
+ | [[Категория:Дисперсионный анализ]] |
Текущая версия
Критерий Краскела-Уоллиса предназначен для проверки равенства средних нескольких выборок. Данный критерий является многовыборочным обобщением критерия Уилкоксона-Манна-Уитни. Критерий Краскела-Уоллиса является ранговым, поэтому он инвариантен по отношению к любому монотонному преобразованию шкалы измерения. Известен так же под названиями: критерий Крускала-Уоллиса, H-критерий Краскела-Уоллиса, Kruskal-Wallis one-way analysis of variance, Kruskal-Wallis test.
Содержание |
Примеры задач
Пример 1. Проходит чемпионат мира по футболу. Первая выборка — опрос болельщиков с вопросом "Каковы шансы на победу сборной России?" до начала чемпионата. Вторая выборка — после первой игры, третья — после второго матча и т.д. Значения в выборках — шансы России на победу по десятибальной шкале (1 — никаких перспектив, 10 — отвезти в Россию кубок — дело времени). Требуется проверить, зависят ли результаты опросов от хода чемпионата.
Пример 2. Выборка состоит из пациентов, у которых был диагностирован неизлечимый рак какого-либо органа. Всем им в качестве поддерживающей терапии был назначен к приёму витамин C (считалось, что он может способствовать выздоровлению раковых больных). Приведены данные об остаточной продолжительности жизни пациентов в днях. То есть выборка состоит из пар вида (пораженный орган, число дней), разделяясь на несколько числовых подвыборок, каждая из которых соответствует своему пораженному органу.
Требуется проверить, отличается ли остаточная продолжительность жизни в зависимости от того, какой орган поражён раковой опухолью.
Описание критерия
Заданы k выборок: . Объединённая выборка: .
Дополнительные предположения:
- все k выборок простые, объединённая выборка независима;
- выборки взяты из неизвестных непрерывных распределений .
Проверяется нулевая гипотеза при альтернативе .
Упорядочим все элементов выборок по возрастанию и обозначим ранг j-го элемента i-й выборки в полученном вариационном ряду.
Статистика критерия Краскела-Уоллиса для проверки гипотезы о наличии сдвига в параметрах положения сравниваемых выборок имеет вид
где .
При наличии связанных рангов (т.е. когда совпадают значения величин из разных выборок и им присваиваются одинаковые средние ранги) необходимо использовать модифицированную статистику где — размер j-й группы одинаковых элементов; q — количество групп одинаковых элементов.
Гипотеза сдвига отклоняется на уровне значимости , если , где — критическое значение, при и вычисляемое по таблицам. При больших значениях применимы различные аппроксимации.
При справедлива аппроксимация распределения статистики -распределением с k-1 степенями свободы, т.е. нулевая гипотеза отклоняется, если .
Аппроксимация Краскела-Уоллиса
Пусть
Тогда статистика
будет иметь при отсутствии сдвига распределение Фишера с и степенями свободы. Таким образом, нулевая гипотеза отклоняется с достоверностью , если .
Аппроксимация Имана-Давенпорта
В соответстви с ней нулевая гипотеза сдвига отклоняется с достоверностью , если , где
— критическое значение статистики хи-квадрат.
Это более точная аппроксимация, чем аппроксимация Краскела-Уоллиса.
Критические значения критерия Краскела-Уоллиса при k<=5, n<=8
Критические значения критерия Краскела-Уоллиса при k<=6, n<=8
См. также
- Проверка статистических гипотез
- Критерий Уилкоксона-Манна-Уитни
- Критерий знаков
- Квантили распределения хи-квадрат (ru_wiki)
Литература
- Kruskal W. H. and Wallis W. A. Use of ranks in one-criterion variance analysis. // Journal of the American Statistical Association. — 1952, 47 №260. — Pp. 583–621.
- Ликеш И., Ляга Й. Основные таблицы математической статистики. — М.: Финансы и статистика, 1985.
- Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006. — 466-468 с.