Критерий Мак-Нимара

Материал из MachineLearning.

Перейти к: навигация, поиск
Статья в настоящий момент дорабатывается.
Михаил Борисов 14:16, 3 декабря 2013 (MSK)


Критерий Мак-Нимара (также, К. Мак-Немара, англ. McNemar's test) используется для анализа таблиц сопряженности размером 2x2 (для дихотомического признака). В отличие от критерия "хи-квадрат", критерий Мак-Немара применяется, когда условие независимости наблюдений не выполняется, но, напротив, учет признака выполняется на одних и тех же субъектах.

Содержание

Определение

Рассмотрим n субъектов, для каждого из которых было проведено 2 теста:

Тест 2 положительный Тест 2 отрицательный Сумма в строке
Тест 1 положительный a b a + b
Тест 1 отрицательный c d c + d
Сумма в столбце a + c b + d n

Нулевая гипотеза утверждает, что маргинальные распределения для всех исходов совпадают:

p_a + p_b = p_a + p_c
p_c + p_d = p_b + p_d

Заметим, что корректность этих равенств не зависит от p_a и p_b. После сокращения, получаем оригинальную формулировку нулевой и альтернативной гипотез:

H_0~: \quad p_b = p_c
H_1~: \quad p_b \ne p_c

Оригинальная форма статистического критерия Мак-Немара такова:

\chi^2 = {(b-c)^2 \over b+c}.

Применение коррекции Йейтса для повышения качества качества критерия на выборках с низкочастотными событиями приводит к следующей формуле:

\chi^2 = {(|b-c|-0.5)^2 \over b+c}.

На практике [1], однако, обычно применяется коррекция Эдвардса:

\chi^2 = {(|b-c|-1)^2 \over b+c}.

При условии выполнения нулевой гипотезы, для достаточно больших выборок (b + c > 25) \chi^2 имеет хи-квадрат распределение с одной степенью свободы. Для маленьких выборок (b + c <= 25) применяют точный критерий Мак-Немара, который является критерием знаков для b относительно биномиального распределения с параметрами n = b + c, p = 1/2.

Пример

Реализации

Ссылки

Сноски

Личные инструменты