Участник:Slimper/Песочница

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
Строка 33: Строка 33:
'''Статистика критерия:'''
'''Статистика критерия:'''
-
# Построить общий [[вариационный ряд]] объединённой выборки <tex>x^{(1)} \leq \cdots \leq x^{(m+n)}</tex> и найти ранги <tex>r(x_i),\; r(y_i)</tex> всех элементов обеих выборок в общем вариационном ряду.
+
# Построить общий [[вариационный ряд]] объединённой выборки <tex>z^{(1)} \leq \cdots \leq z^{(m+n)}</tex> и найти ранги <tex>r(x_i)</tex> элементов первой выборки в общем вариационном ряду.
-
# Вычислить суммарные ранги обеих выборок и статистику Манна-Уитни <tex>U</tex>:
+
# Статистика критерия ван дер Вардена вычисляется по формуле:
-
::<tex>R_x = \sum_{i=1}^m r(x_i);\;\;\;\; U_x = mn + \frac12m(m+1) - R_x;</tex>
+
<tex>X = \sum_{i = 1}^n u( \frac{r(x_i)}{ m + n + 1} )</tex>, где
-
::<tex>R_y = \sum_{i=1}^n r(y_i);\;\;\;\; U_y = mn + \frac12n(n+1) - R_y;</tex>
+
<tex>u( \frac{r(x_i)}{ m + n + 1} )</tex> — [[квантиль]]
-
::<tex>U = \min\left\{U_x,U_y\right\}.</tex>
+
[[стандартное нормальное распределение| стандартного нормального распределения]]
-
 
+
-
Замечание: менее рациональный способ вычисления статистик Манна-Уитни <tex>U_x,\: U_y</tex>:
+
-
::<tex>U_x = \sum_{i=1}^m \sum_{j=1}^n \left[ x_i < y_j\right];</tex>
+
-
::<tex>U_y = \sum_{i=1}^m \sum_{j=1}^n \left[ x_i > y_j\right].</tex>
+
'''Критерий''' (при [[уровень значимости|уровне значимости]] <tex>\alpha</tex>):
'''Критерий''' (при [[уровень значимости|уровне значимости]] <tex>\alpha</tex>):
 +
* двусторонний критерий — против альтернативы <tex>H_1:\; \mathbb{P} \{ x<y \} \neq 1/2</tex>
 +
::если <tex> X \notin \left[ X_{\alpha/2},\, X_{1-\alpha/2} \right] </tex>, то нулевая гипотеза отвергается;
-
* против альтернативы <tex>H_1:\; \mathbb{P} \{ x<y \} \neq 1/2</tex>
+
* односторонний критерий -- против альтернативы <tex>H'_1:\; \mathbb{P} \{ x>y \} > 1/2</tex>
-
::если <tex> U \notin \left[ U_{\alpha/2},\, U_{1-\alpha/2} \right] </tex>, то нулевая гипотеза отвергается;
+
::если <tex> X_> X_{1-\alpha} </tex>, то нулевая гипотеза отвергается;
-
* против альтернативы <tex>H'_1:\; \mathbb{P} \{ x<y \} > 1/2</tex>
+
Здесь <tex> X_{\alpha} </tex> -- это <tex>\alpha</tex>-[[квантиль]] табличного распределения статистики Ван дер Вардена с параметрами <tex>m,\,n</tex>.
-
::если <tex> U_x > U_{1-\alpha} </tex>, то нулевая гипотеза отвергается;
+
-
* против альтернативы <tex>H''_1:\; \mathbb{P} \{ x<y \} < 1/2</tex>
+
===Асимптотический критерий ===
-
::если <tex> U_y > U_{1-\alpha} </tex>, то нулевая гипотеза отвергается;
+
Распределение статистики Ван дер Вардена асимптотически нормально
-
где
+
с нулевым матожиданием <tex>\mathbb{E}X = 0</tex> и дисперсией
-
<tex> U_{\alpha} </tex> есть <tex>\alpha</tex>-[[квантиль]] табличного распределения Уилкоксона-Манна-Уитни с параметрами <tex>m,\,n</tex>.
+
-
'''Асимптотический критерий''':
+
::<tex>
-
нормированная и центрированная статистика Манна-Уитни
+
\mathbb{D}X =
-
::<tex>\tilde U = \frac{U-\frac12mn}{\sqrt{\frac1{12}mn(m+n+1)}}</tex>
+
\frac{mn}{(m + n)(m + n - 1)}
-
асимптотически имеет стандартное нормальное распределение при <tex>m,\,n > 8</tex>.
+
\sum_{i = 1}^{m + n} u^2( \frac{i}{m + n + 1} )
 +
</tex>
-
== Свойства и границы применимости U-критерия ==
+
Нормальную аппроксимацию статистики Ван дер Вардена можно использовать при
 +
<tex> m, n \geqslant 20</tex>.
 +
В этом случае критерии (при [[уровень значимости|уровне значимости]] <tex>\alpha</tex>)
 +
будет выглядеть следующим образом:
 +
 +
* двусторонний критерий <tex> \frac{X}{\mathbb{D}X} \notin \left[ u_{\alpha/2},\, u_{1-\alpha/2} \right] </tex>, то нулевая гипотеза отвергается;
 +
 +
* односторонний критерий -- против альтернативы <tex>H'_1:\; \mathbb{P} \{ x>y \} > 1/2</tex>
 +
::если <tex> \frac{X}{\mathbb{D}X}_> u_{1-\alpha} </tex>, то нулевая гипотеза отвергается;
 +
 +
=== Свойства критерия Ван дер Вардена ===
 +
Критерий Ван
Иногда ошибочно считают, что U-критерий проверяет нулевую [[гипотеза однородности|гипотезу однородности]]
Иногда ошибочно считают, что U-критерий проверяет нулевую [[гипотеза однородности|гипотезу однородности]]
<tex>H_{00}:\; F(x)=G(y)</tex>, то есть что две выборки взяты из одного и того же распределения.
<tex>H_{00}:\; F(x)=G(y)</tex>, то есть что две выборки взяты из одного и того же распределения.
Строка 82: Строка 90:
U-критерий является непараметрическим аналогом [[Критерий Стьюдента|критерия Стьюдента]].
U-критерий является непараметрическим аналогом [[Критерий Стьюдента|критерия Стьюдента]].
Если [[нормальная выборка|выборки нормальные]], то для проверки гипотезы сдвига предпочтительно применить более мощный критерий Стьюдента.
Если [[нормальная выборка|выборки нормальные]], то для проверки гипотезы сдвига предпочтительно применить более мощный критерий Стьюдента.
 +
 +
=== Многомерное обобщение критерия Ван дер Вардена ===
== История ==
== История ==

Версия 10:30, 6 января 2010

Критерий Ван-дер-Варденанепараметрический статистический критерий, используемый для оценки различий между двумя выборками по признаку, измеренному в количественной шкале. Критерий является ранговым, поэтому он инвариантен по отношению к любому монотонному преобразованию шкалы измерения.

Содержание

Примеры задач

Пример 1. Первая выборка — это пациенты, которых лечили препаратом А. Вторая выборка — пациенты, которых лечили препаратом Б. Значения в выборках — это некоторая характеристика эффективности лечения (уровень метаболита в крови, температура через три дня после начала лечения, срок выздоровления, число койко-дней, и т.д.) Требуется выяснить, имеется ли значимое различие эффективности препаратов А и Б, или различия являются чисто случайными и объясняются «естественной» дисперсией выбранной характеристики.

Пример 2. Первая выборка — это поля, обработанные агротехническим методом А. Вторая выборка — поля, обработанные агротехническим методом Б. Значения в выборках — это урожайность. Требуется выяснить, является ли один из методов эффективнее другого, или различия урожайности обусловлены случайными факторами.

Пример 3. Первая выборка — это дни, когда в супермаркете проходила промо-акция типа А (красные ценники со скидкой). Вторая выборка — дни промо-акции типа Б (каждая пятая пачка бесплатно). Значения в выборках — это показатель эффективности промо-акции (объём продаж, либо выручка в рублях). Требуется выяснить, какой из типов промо-акции более эффективен.

Описание критерия

Заданы две выборки x^m = (x_1,\ldots,x_m),\; x_i \in \mathbb{R};\;\; y^n = (y_1,\ldots,y_n),\; y_i \in \mathbb{R}.

Дополнительные предположения:

  • обе выборки простые, объединённая выборка независима;
  • выборки взяты из неизвестных непрерывных распределений F(x) и G(y) соответственно.

Нулевая гипотеза H_0:\; F(x) = G(y).

Статистика критерия:

  1. Построить общий вариационный ряд объединённой выборки z^{(1)} \leq \cdots \leq z^{(m+n)} и найти ранги r(x_i) элементов первой выборки в общем вариационном ряду.
  2. Статистика критерия ван дер Вардена вычисляется по формуле:

X = \sum_{i = 1}^n u( \frac{r(x_i)}{ m + n + 1} ), где u( \frac{r(x_i)}{ m + n + 1} )квантиль стандартного нормального распределения

Критерий (при уровне значимости \alpha):

  • двусторонний критерий — против альтернативы H_1:\; \mathbb{P} \{ x<y \} \neq 1/2
если  X \notin \left[ X_{\alpha/2},\, X_{1-\alpha/2} \right] , то нулевая гипотеза отвергается;
  • односторонний критерий -- против альтернативы H'_1:\; \mathbb{P} \{ x>y \} > 1/2
если  X_> X_{1-\alpha} , то нулевая гипотеза отвергается;

Здесь  X_{\alpha} -- это \alpha-квантиль табличного распределения статистики Ван дер Вардена с параметрами m,\,n.

Асимптотический критерий

Распределение статистики Ван дер Вардена асимптотически нормально с нулевым матожиданием \mathbb{E}X = 0 и дисперсией


\mathbb{D}X = 
\frac{mn}{(m + n)(m + n - 1)} 
\sum_{i = 1}^{m + n} u^2( \frac{i}{m + n + 1} )

Нормальную аппроксимацию статистики Ван дер Вардена можно использовать при  m, n \geqslant 20.

В этом случае критерии (при уровне значимости \alpha) будет выглядеть следующим образом:

  • двусторонний критерий  \frac{X}{\mathbb{D}X} \notin \left[ u_{\alpha/2},\, u_{1-\alpha/2} \right] , то нулевая гипотеза отвергается;
  • односторонний критерий -- против альтернативы H'_1:\; \mathbb{P} \{ x>y \} > 1/2
если  \frac{X}{\mathbb{D}X}_> u_{1-\alpha} , то нулевая гипотеза отвергается;

Свойства критерия Ван дер Вардена

Критерий Ван Иногда ошибочно считают, что U-критерий проверяет нулевую гипотезу однородности H_{00}:\; F(x)=G(y), то есть что две выборки взяты из одного и того же распределения. U-критерий не является состоятельным против общей альтернативы H_1:\; F(x) \neq G(y). Это означает, что гипотеза однородности будет приниматься чаще, чем она на самом деле верна. Существуют ситуации, когда гипотеза H_{0} верна, а более сильная гипотеза однородности H_{00} не верна [Орлов]. Для проверки однородности существуют более мощные критерии, в частности, критерий Смирнова или критерий Лемана-Розенблатта.

Иногда ошибочно считают, что U-критерий проверяет нулевую гипотезу равенства медиан в двух выборках. Существуют распределения, для которых гипотеза H_{0} верна, но их медианы различны.

U-критерий можно применять для проверки гипотезы сдвига в качестве альтернативной H_{1}:\; F(x)=G(x+r), где r — некоторая константа, отличная от нуля. При этой альтернативе U-критерий является состоятельным. Его целесообразно применять, если одним и тем же прибором проводятся две серии измерений двух значений некоторой физической величины. При этом функция распределения G(x) описывает погрешности измерения одного значения, а G(x+r) — другого. Однако во многих приложениях (в частности, эконометрических) нет особых оснований предполагать, что распределение второй выборки лишь сдвигается, но не меняется каким-либо иным образом.

U-критерий является непараметрическим аналогом критерия Стьюдента. Если выборки нормальные, то для проверки гипотезы сдвига предпочтительно применить более мощный критерий Стьюдента.

Многомерное обобщение критерия Ван дер Вардена

История

Критерий был предложен Ван-дер-Варденом в 1953 году

Литература

  1. ван дер Варден Б.Л. Математическая статистика/Пер.с нем. — М.:  Иностранная литература,1960 — 450 c.
  2. Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006. — 816 с.

См. также

Ссылки

Данная статья является непроверенным учебным заданием.
Студент: Участник:Slimper
Преподаватель: Участник:Vokov
Срок: 08 января 2010

До указанного срока статья не должна редактироваться другими участниками проекта MachineLearning.ru. По его окончании любой участник вправе исправить данную статью по своему усмотрению и удалить данное предупреждение, выводимое с помощью шаблона {{Задание}}.

См. также методические указания по использованию Ресурса MachineLearning.ru в учебном процессе.


Личные инструменты