Медианный критерий

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(ссылки)
Текущая версия (16:57, 14 октября 2012) (править) (отменить)
м (Описание критерия)
 
(3 промежуточные версии не показаны)
Строка 1: Строка 1:
-
В [[статистика|статистике]] '''медианный критерий''' - частный случай [[Критерий хи-квадрат|критерия хи-квадрат]]. Это - непараметрический критерий, который предназначен для проверки [[нулевая гипотеза|нулевой гипотезы]] о том, что медианы совокупностей, из которых сделаны две [[выборка|выборки]] - одинаковы.
+
'''Медианный критерий''' [[непараметрический статистический критерий]], относится к классу [[ранговый критерий| ранговых критериев]] сдвига. То есть проверяет гипотезу о том, что распределения двух выборок имеют одинаковую форму и отличаются только сдвигом на константу.
-
Данные в каждой выборке разбиваются на две группы: одна состоит из элементов, значения которых выше чем медианное значение объединенной выборки, а другая состоит из данных, значения которых в медиане или ниже. При этом используется критерий хи-квадрат [[Пирсон|Пирсона]] , чтобы определить, отличаются ли наблюдаемые частоты в каждой группе от ожидаемых частот, полученных из распределения, комбинирующего обе эти выборки.
+
== Описание критерия ==
 +
Пусть <tex>X = (X_1,\ldots,X_m)</tex> и <tex>Y = (Y_1,\ldots,Y_n)</tex> - случайные выборки с плотностями <tex>f_1</tex> и <tex>f_2</tex> соответственно.
-
Тест имеет низкую эффективность для диапазона выборок от умеренного до большого размера, и, в значительной степени, расценивается как устаревший. [[Критерий Уилкоксона-Манна-Уитни]] для двух выборок лучше работает в этом случае. Siegel & Castellan (1988, p. 124), считают, что медианному критерию нет никакой альтернативы, когда одно или более наблюдений находятся "за пределами шкалы". Существенное различие между двумя критериями состоит в том, что медианный критерий учитывает только положение каждого наблюдения относительно совокупной медианы, тогда как критерий Уилкоксона-Манна-Уитни принимает во внимание ранг каждого наблюдения. Таким образом из двух рассмотренных тестов, последний обычно более показателен.
+
'''[[Нулевая гипотеза]]''' <tex>H_0:\; f_1(x) = f_2(x)</tex>.
 +
'''Альтернатива''' <tex>H_1:\; f_1(x) = f_2(x-\Delta), \Delta \neq 0</tex>. То есть плотности идентичны за исключением сдвига.
 +
 
 +
'''Статистика критерия:'''
 +
* Строится общий [[вариационный ряд]] объединённой выборки <tex>Z_{(1)} \leq \cdots \leq Z_{(m+n)}</tex>. <tex>R _i</tex> - ранги элементов первой выборки в общем вариационном ряду.
 +
* ''Форма 1''
 +
Находится медиана упорядоченной объединенной выборки <tex>Z</tex> и подсчитывается число наблюдений выборки <tex>X</tex>, превосходящих медиану (если <tex>(m+n)</tex> нечетно и медиана принадлежит выборке <tex>X</tex>, то это число увеличивается на <tex>\frac{1}{2}</tex>). Тогда статистика критерия может быть записана так:
 +
::<tex>S = \sum_{i=1}^{m}\frac{1}{2}[sign(R_i - \frac{m+n+1}{2} )+ 1]</tex>
 +
 
 +
При <tex>n,m > 10</tex> распределение статистики <tex>S</tex> удовлетворительно описывается [[нормальное распределение|нормальным]] со средним <tex>\mathbf{M}(S) = \frac{m}{2}</tex> и дисперсией
 +
 
 +
::<tex>\mathbf{D}(S) = \frac{mn}{4(m+n-1)}</tex>, если <tex>m+n = 2k</tex> и
 +
::<tex>\mathbf{D}(S) = \frac{mn}{4(m+n)}</tex>, если <tex>m+n = 2k-1</tex>
 +
 
 +
Если
 +
::<tex>|S^*| = \frac{|S-\mathbf{M}(S)|}{ \sqrt{\mathbf{D}(S)}} < U_{1-\frac{\alpha}{2}}</tex>,
 +
то с достоверностью <tex>\alpha</tex> гипотеза сдвига отклоняется.
 +
* ‘’Форма 2’’
 +
Пусть <tex>A</tex> и <tex>C</tex> – количество элементов выборки <tex>X</tex>, соответственно больших и меньших медианы объединенной выборки, а <tex>B</tex> и <tex>D</tex> - аналогичные числа для выборки <tex>Y</tex>.
 +
Тогда статистикой критерия сдвига является величина
 +
::<tex>\chi^2 = \frac{(n+m)(|AD-BC|-\frac{n+m}{2})^2}{(A+B)(C+D)+(A+C)(B+D)}</tex>,
 +
 
 +
Имеющая, при отсутствии сдвига, распределение хи-квадрат с 1 степенью свободы
 +
 
 +
== Замечания ==
 +
# Медианный критерий асимптотически оптимален, когда плотность <tex>f</tex> принадлежит симметрично-экспоненциальному типу.
 +
#’Форма 2’ критерия применима только при <tex>n+m<40</tex> и <tex>A, B, C, D < 5</tex>
 +
# Эффективность медианного критерия по сравнению с [[Критерий Стьюдента|критерием Стьюдента]] в случае нормального распределения равна <tex>\frac{2}{\pi} \approx 0,64</tex>
 +
 
 +
 
 +
==Сравнение с аналогичными критериями==
 +
#Тест имеет низкую эффективность для диапазона выборок от умеренного до большого размера, и, в значительной степени, расценивается как устаревший. [[Критерий Уилкоксона-Манна-Уитни]] для двух выборок лучше работает в этом случае. Siegel & Castellan (1988, p. 124), считают, что медианному критерию нет никакой альтернативы, когда одно или более наблюдений находятся "за пределами шкалы". Существенное различие между двумя критериями состоит в том, что медианный критерий учитывает только положение каждого наблюдения относительно совокупной медианы, тогда как критерий Уилкоксона-Манна-Уитни принимает во внимание ранг каждого наблюдения. Таким образом из двух рассмотренных тестов, последний обычно более показателен.
==Ссылки==
==Ссылки==
Строка 13: Строка 45:
* Siegel, S., & Castellan, N. J. Jr. (1988, 2nd ed.). Nonparametric statistics for the behavioral sciences. New York: McGraw-Hill.
* Siegel, S., & Castellan, N. J. Jr. (1988, 2nd ed.). Nonparametric statistics for the behavioral sciences. New York: McGraw-Hill.
* Friedlin, B. & Gastwirth, J. L. (2000). Should the median test be retired from general use? ''The American Statistician, 54'', 161-164.
* Friedlin, B. & Gastwirth, J. L. (2000). Should the median test be retired from general use? ''The American Statistician, 54'', 161-164.
-
 
+
* Я.Гаек, З. Шидак Теория ранговых решений. "Наука" Москва 1971г.
 +
* Кобзарь А.И. Прикладная математическая статистика. Для инженеров и научных работников. М.:ФизМатЛит 2006г.
[[Категория:Статистические тесты]]
[[Категория:Статистические тесты]]
-
{{Задание|Евгения Одинокова|Vokov|31 декабря 2009}}
+
{{Задание|Евгения Одинокова|Vokov|29 января 2009}}

Текущая версия

Медианный критерийнепараметрический статистический критерий, относится к классу ранговых критериев сдвига. То есть проверяет гипотезу о том, что распределения двух выборок имеют одинаковую форму и отличаются только сдвигом на константу.

Содержание

Описание критерия

Пусть X = (X_1,\ldots,X_m) и Y = (Y_1,\ldots,Y_n) - случайные выборки с плотностями f_1 и f_2 соответственно.

Нулевая гипотеза H_0:\; f_1(x) = f_2(x). Альтернатива H_1:\; f_1(x) = f_2(x-\Delta), \Delta \neq 0. То есть плотности идентичны за исключением сдвига.

Статистика критерия:

  • Строится общий вариационный ряд объединённой выборки Z_{(1)} \leq \cdots \leq Z_{(m+n)}. R _i - ранги элементов первой выборки в общем вариационном ряду.
  • Форма 1

Находится медиана упорядоченной объединенной выборки Z и подсчитывается число наблюдений выборки X, превосходящих медиану (если (m+n) нечетно и медиана принадлежит выборке X, то это число увеличивается на \frac{1}{2}). Тогда статистика критерия может быть записана так:

S = \sum_{i=1}^{m}\frac{1}{2}[sign(R_i - \frac{m+n+1}{2} )+ 1]

При n,m > 10 распределение статистики S удовлетворительно описывается нормальным со средним \mathbf{M}(S) = \frac{m}{2} и дисперсией

\mathbf{D}(S) = \frac{mn}{4(m+n-1)}, если m+n = 2k и
\mathbf{D}(S) = \frac{mn}{4(m+n)}, если m+n = 2k-1

Если

|S^*| = \frac{|S-\mathbf{M}(S)|}{ \sqrt{\mathbf{D}(S)}} < U_{1-\frac{\alpha}{2}},

то с достоверностью \alpha гипотеза сдвига отклоняется.

  • ‘’Форма 2’’

Пусть A и C – количество элементов выборки X, соответственно больших и меньших медианы объединенной выборки, а B и D - аналогичные числа для выборки Y. Тогда статистикой критерия сдвига является величина

\chi^2 = \frac{(n+m)(|AD-BC|-\frac{n+m}{2})^2}{(A+B)(C+D)+(A+C)(B+D)},

Имеющая, при отсутствии сдвига, распределение хи-квадрат с 1 степенью свободы

Замечания

  1. Медианный критерий асимптотически оптимален, когда плотность f принадлежит симметрично-экспоненциальному типу.
  2. ’Форма 2’ критерия применима только при n+m<40 и A, B, C, D < 5
  3. Эффективность медианного критерия по сравнению с критерием Стьюдента в случае нормального распределения равна \frac{2}{\pi} \approx 0,64


Сравнение с аналогичными критериями

  1. Тест имеет низкую эффективность для диапазона выборок от умеренного до большого размера, и, в значительной степени, расценивается как устаревший. Критерий Уилкоксона-Манна-Уитни для двух выборок лучше работает в этом случае. Siegel & Castellan (1988, p. 124), считают, что медианному критерию нет никакой альтернативы, когда одно или более наблюдений находятся "за пределами шкалы". Существенное различие между двумя критериями состоит в том, что медианный критерий учитывает только положение каждого наблюдения относительно совокупной медианы, тогда как критерий Уилкоксона-Манна-Уитни принимает во внимание ранг каждого наблюдения. Таким образом из двух рассмотренных тестов, последний обычно более показателен.

Ссылки

Литература

  • Siegel, S., & Castellan, N. J. Jr. (1988, 2nd ed.). Nonparametric statistics for the behavioral sciences. New York: McGraw-Hill.
  • Friedlin, B. & Gastwirth, J. L. (2000). Should the median test be retired from general use? The American Statistician, 54, 161-164.
  • Я.Гаек, З. Шидак Теория ранговых решений. "Наука" Москва 1971г.
  • Кобзарь А.И. Прикладная математическая статистика. Для инженеров и научных работников. М.:ФизМатЛит 2006г.


Данная статья является непроверенным учебным заданием.
Студент: Участник:Евгения Одинокова
Преподаватель: Участник:Vokov
Срок: 29 января 2009

До указанного срока статья не должна редактироваться другими участниками проекта MachineLearning.ru. По его окончании любой участник вправе исправить данную статью по своему усмотрению и удалить данное предупреждение, выводимое с помощью шаблона {{Задание}}.

См. также методические указания по использованию Ресурса MachineLearning.ru в учебном процессе.


Личные инструменты