Участник:Slimper/Песочница

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
Строка 1: Строка 1:
-
'''Критерий Ван-дер-Вардена''' — [[непараметрический статистический критерий]], используемый для оценки различий между двумя [[выборка]]ми по признаку, измеренному в количественной [[шкала измерения|шкале]]. Критерий является ранговым, поэтому он инвариантен по отношению
+
'''Критерий Ван дер Вардена(Van der Waerden criteria)''' — [[непараметрический статистический критерий]], используемый для оценки различий между двумя [[выборка]]ми по признаку, измеренному в количественной [[шкала измерения|шкале]]. Критерий является ранговым, поэтому он инвариантен по отношению
к любому монотонному преобразованию шкалы измерения.
к любому монотонному преобразованию шкалы измерения.
 +
Для выявления различий между несколькими выборками существует многовыборочный критерий Ван дер Вардена.
== Примеры задач ==
== Примеры задач ==
Строка 36: Строка 37:
# Статистика критерия ван дер Вардена вычисляется по формуле:
# Статистика критерия ван дер Вардена вычисляется по формуле:
<tex>X = \sum_{i = 1}^n u( \frac{r(x_i)}{ m + n + 1} )</tex>, где
<tex>X = \sum_{i = 1}^n u( \frac{r(x_i)}{ m + n + 1} )</tex>, где
-
<tex>u( \frac{r(x_i)}{ m + n + 1} )</tex> — [[квантиль]]
+
<tex>u( \frac{r(x_i)}{ m + n + 1} )</tex> — [[квантиль]] уровня
-
[[стандартное нормальное распределение| стандартного нормального распределения]]
+
<tex>\frac{r(x_i)}{ m + n + 1}</tex>
 +
[[нормальное распределение| стандартного нормального распределения]]
'''Критерий''' (при [[уровень значимости|уровне значимости]] <tex>\alpha</tex>):
'''Критерий''' (при [[уровень значимости|уровне значимости]] <tex>\alpha</tex>):
Строка 52: Строка 54:
Распределение статистики Ван дер Вардена асимптотически нормально
Распределение статистики Ван дер Вардена асимптотически нормально
с нулевым матожиданием <tex>\mathbb{E}X = 0</tex> и дисперсией
с нулевым матожиданием <tex>\mathbb{E}X = 0</tex> и дисперсией
-
 
+
::<tex> \mathbb{D}X = \frac{mn}{(m + n)(m + n - 1)} \sum_{i = 1}^{m + n} u^2( \frac{i}{m + n + 1} ) </tex>
-
::<tex>
+
-
\mathbb{D}X =
+
-
\frac{mn}{(m + n)(m + n - 1)}
+
-
\sum_{i = 1}^{m + n} u^2( \frac{i}{m + n + 1} )
+
-
</tex>
+
Нормальную аппроксимацию статистики Ван дер Вардена можно использовать при
Нормальную аппроксимацию статистики Ван дер Вардена можно использовать при
Строка 70: Строка 67:
::если <tex> \frac{X}{\mathbb{D}X}_> u_{1-\alpha} </tex>, то нулевая гипотеза отвергается;
::если <tex> \frac{X}{\mathbb{D}X}_> u_{1-\alpha} </tex>, то нулевая гипотеза отвергается;
-
=== Свойства критерия Ван дер Вардена ===
+
== Свойства критерия Ван дер Вардена ==
-
Критерий Ван
+
Если выборки подчиняются нормальному распределению, то критерий Ван дер Вардена асимптотически
-
Иногда ошибочно считают, что U-критерий проверяет нулевую [[гипотеза однородности|гипотезу однородности]]
+
имеет ту же мощность, что и [[критерий Стьюдента]].
-
<tex>H_{00}:\; F(x)=G(y)</tex>, то есть что две выборки взяты из одного и того же распределения.
+
 
-
U-критерий не является состоятельным против общей альтернативы
+
При <tex>n + m \to \infty</tex> критерий Ван дер Вардена не уступает в эффективности [[Критерий Стьюдента | критерию Стьюдента]]
-
<tex>H_1:\; F(x) \neq G(y)</tex>.
+
 
-
Это означает, что гипотеза однородности будет приниматься чаще, чем она на самом деле верна.
+
== Многовыборочное обобщение критерия Ван дер Вардена ==
-
Существуют ситуации, когда гипотеза <tex>H_{0}</tex> верна, а более сильная гипотеза однородности <tex>H_{00}</tex> не верна [Орлов].
+
Заданы <i>k</i> выборок:
-
Для проверки [[гипотеза однородности|однородности]] существуют более мощные критерии, в частности, [[критерий Смирнова]] или [[критерий Лемана-Розенблатта]].
+
<tex>x_1^{n_1}=\left\{x_{11},\dots,x_{1n_1}\right\}, \dots, x_k^{n_k}=\left\{x_{k1},\dots,x_{kn_k}\right\}</tex>.
 +
Объединённая выборка: <tex>z=x_1^{n_1}\cup x_2^{n_2}\cup \dots \cup x_k^{n_k}</tex>.
 +
 
 +
''Дополнительные предположения:''
 +
* все выборки [[Простая выборка|простые]], объединённая выборка [[Независимая выборка|независима]];
 +
* выборки взяты из неизвестных непрерывных распределений <tex>F_1(x),\dots,F_k(x)</tex>.
 +
 
 +
Упорядочим все <tex>N=\sum_{i=1}^k n_i</tex> элементов выборок по возрастанию и обозначим <tex>R_{ij}</tex> ранг <i>j</i>-го элемента <i>i</i>-й выборки в полученном [[вариационный ряд|вариационном ряду]].
 +
 
 +
Статистика Ван дер Вардена имеет вид <br />
 +
:: <tex>T = \left(\sum_{i = 1}^N u^2( \frac{i}{N + 1} ) \right)^{-1} (N - 1) \sum_{i = 1}^{k} \frac{1}{n_i} \left( \sum_{j=1}^{n_i} u^2( \frac{R_{ij}}{N + 1} ) \right)^2</tex> <br/>
-
Иногда ошибочно считают, что U-критерий проверяет нулевую гипотезу равенства медиан в двух выборках.
+
Проверяется [[нулевая гипотеза]] <tex>H_0:\; F_1(x)=\dots=F_k(x)</tex> против альтернативы <tex>H_1:\; F_1(x)=F_2(x-\Delta_1)=\dots=F_k(x-\Delta_{k-1})</tex>.
-
Существуют распределения, для которых гипотеза <tex>H_{0}</tex> верна, но их медианы различны.
+
-
U-критерий можно применять для проверки [[гипотеза сдвига|гипотезы сдвига]] в качестве альтернативной
+
Если нулевая гипотеза выполнена, то поведение статистики <tex>T</tex> хорошо описывается
-
<tex>H_{1}:\; F(x)=G(x+r)</tex>, где <tex>r</tex> — некоторая константа, отличная от нуля.
+
распределением [[распределение хи-квадрат|хи-квадарат]] с <tex>k - 1</tex> степенью свободы.
-
При этой альтернативе U-критерий является [[состоятельный критерий|состоятельным]].
+
-
Его целесообразно применять, если одним и тем же прибором проводятся две серии измерений двух значений некоторой физической величины. При этом функция распределения <tex>G(x)</tex> описывает погрешности измерения одного значения, а <tex>G(x+r)</tex> — другого. Однако во многих приложениях (в&nbsp;частности, эконометрических) нет особых оснований предполагать, что распределение второй выборки лишь сдвигается, но не меняется каким-либо иным образом.
+
-
U-критерий является непараметрическим аналогом [[Критерий Стьюдента|критерия Стьюдента]].
+
Нулевая гипотеза отвергается, если <tex>T > \chi^2_{\alpha, k - 1}</tex>, где
-
Если [[нормальная выборка|выборки нормальные]], то для проверки гипотезы сдвига предпочтительно применить более мощный критерий Стьюдента.
+
<tex>chi^2_{\alpha, k - 1}</tex> — [[квантиль]] уровня <tex>\alpha</tex> с <tex>k - 1</tex> степенью свободы.
-
=== Многомерное обобщение критерия Ван дер Вардена ===
 
== История ==
== История ==
-
Критерий был предложен Ван-дер-Варденом в 1953 году
+
Критерий был предложен Ван дер Варденом в 1953 году.
== Литература ==
== Литература ==
-
# ''ван дер Варден Б.Л.'' Математическая статистика/Пер.с нем. — М.:&nbsp; Иностранная литература,1960 — 450&nbsp;c.
+
# ''Ван дер Варден Б.Л.'' Математическая статистика/Пер.с нем. — М.:&nbsp; Иностранная литература,1960 — 450&nbsp;c.
# ''Кобзарь А. И.'' Прикладная математическая статистика. — М.:&nbsp;Физматлит, 2006. — 816&nbsp;с.
# ''Кобзарь А. И.'' Прикладная математическая статистика. — М.:&nbsp;Физматлит, 2006. — 816&nbsp;с.
Строка 104: Строка 107:
* [[Статистика (функция выборки)]]
* [[Статистика (функция выборки)]]
* [[Критерий Стьюдента]]
* [[Критерий Стьюдента]]
 +
* [[Критерий Уилкоксона-Манна-Уитни]] — другой непараметрический критерий для оценки
 +
различия между двумя выборками
 +
* [[Критерий Краскела-Уоллиса]] — критерий для проверки равенства средних нескольких выборок
== Ссылки ==
== Ссылки ==
 +
[http://en.wikipedia.org/wiki/Van_der_Waerden_test| Van_der_Waerden_test ] - статья в Википедии
 +
о многовыборочном критерии Ван дер Вардена
[[Категория:Статистические тесты]]
[[Категория:Статистические тесты]]
[[Категория:Непараметрические статистические тесты]]
[[Категория:Непараметрические статистические тесты]]
{{Задание|Slimper|Vokov|08 января 2010}}
{{Задание|Slimper|Vokov|08 января 2010}}

Версия 13:02, 6 января 2010

Критерий Ван дер Вардена(Van der Waerden criteria)непараметрический статистический критерий, используемый для оценки различий между двумя выборками по признаку, измеренному в количественной шкале. Критерий является ранговым, поэтому он инвариантен по отношению к любому монотонному преобразованию шкалы измерения. Для выявления различий между несколькими выборками существует многовыборочный критерий Ван дер Вардена.

Содержание

Примеры задач

Пример 1. Первая выборка — это пациенты, которых лечили препаратом А. Вторая выборка — пациенты, которых лечили препаратом Б. Значения в выборках — это некоторая характеристика эффективности лечения (уровень метаболита в крови, температура через три дня после начала лечения, срок выздоровления, число койко-дней, и т.д.) Требуется выяснить, имеется ли значимое различие эффективности препаратов А и Б, или различия являются чисто случайными и объясняются «естественной» дисперсией выбранной характеристики.

Пример 2. Первая выборка — это поля, обработанные агротехническим методом А. Вторая выборка — поля, обработанные агротехническим методом Б. Значения в выборках — это урожайность. Требуется выяснить, является ли один из методов эффективнее другого, или различия урожайности обусловлены случайными факторами.

Пример 3. Первая выборка — это дни, когда в супермаркете проходила промо-акция типа А (красные ценники со скидкой). Вторая выборка — дни промо-акции типа Б (каждая пятая пачка бесплатно). Значения в выборках — это показатель эффективности промо-акции (объём продаж, либо выручка в рублях). Требуется выяснить, какой из типов промо-акции более эффективен.

Описание критерия

Заданы две выборки x^m = (x_1,\ldots,x_m),\; x_i \in \mathbb{R};\;\; y^n = (y_1,\ldots,y_n),\; y_i \in \mathbb{R}.

Дополнительные предположения:

  • обе выборки простые, объединённая выборка независима;
  • выборки взяты из неизвестных непрерывных распределений F(x) и G(y) соответственно.

Нулевая гипотеза H_0:\; F(x) = G(y).

Статистика критерия:

  1. Построить общий вариационный ряд объединённой выборки z^{(1)} \leq \cdots \leq z^{(m+n)} и найти ранги r(x_i) элементов первой выборки в общем вариационном ряду.
  2. Статистика критерия ван дер Вардена вычисляется по формуле:

X = \sum_{i = 1}^n u( \frac{r(x_i)}{ m + n + 1} ), где u( \frac{r(x_i)}{ m + n + 1} )квантиль уровня \frac{r(x_i)}{ m + n + 1} стандартного нормального распределения

Критерий (при уровне значимости \alpha):

  • двусторонний критерий — против альтернативы H_1:\; \mathbb{P} \{ x<y \} \neq 1/2
если  X \notin \left[ X_{\alpha/2},\, X_{1-\alpha/2} \right] , то нулевая гипотеза отвергается;
  • односторонний критерий -- против альтернативы H'_1:\; \mathbb{P} \{ x>y \} > 1/2
если  X_> X_{1-\alpha} , то нулевая гипотеза отвергается;

Здесь  X_{\alpha} -- это \alpha-квантиль табличного распределения статистики Ван дер Вардена с параметрами m,\,n.

Асимптотический критерий

Распределение статистики Ван дер Вардена асимптотически нормально с нулевым матожиданием \mathbb{E}X = 0 и дисперсией

 \mathbb{D}X = \frac{mn}{(m + n)(m + n - 1)} \sum_{i = 1}^{m + n} u^2( \frac{i}{m + n + 1} )

Нормальную аппроксимацию статистики Ван дер Вардена можно использовать при  m, n \geqslant 20.

В этом случае критерии (при уровне значимости \alpha) будет выглядеть следующим образом:

  • двусторонний критерий  \frac{X}{\mathbb{D}X} \notin \left[ u_{\alpha/2},\, u_{1-\alpha/2} \right] , то нулевая гипотеза отвергается;
  • односторонний критерий -- против альтернативы H'_1:\; \mathbb{P} \{ x>y \} > 1/2
если  \frac{X}{\mathbb{D}X}_> u_{1-\alpha} , то нулевая гипотеза отвергается;

Свойства критерия Ван дер Вардена

Если выборки подчиняются нормальному распределению, то критерий Ван дер Вардена асимптотически имеет ту же мощность, что и критерий Стьюдента.

При n + m \to \infty критерий Ван дер Вардена не уступает в эффективности критерию Стьюдента

Многовыборочное обобщение критерия Ван дер Вардена

Заданы k выборок: x_1^{n_1}=\left\{x_{11},\dots,x_{1n_1}\right\}, \dots, x_k^{n_k}=\left\{x_{k1},\dots,x_{kn_k}\right\}. Объединённая выборка: z=x_1^{n_1}\cup x_2^{n_2}\cup \dots \cup x_k^{n_k}.

Дополнительные предположения:

  • все выборки простые, объединённая выборка независима;
  • выборки взяты из неизвестных непрерывных распределений F_1(x),\dots,F_k(x).

Упорядочим все N=\sum_{i=1}^k n_i элементов выборок по возрастанию и обозначим R_{ij} ранг j-го элемента i-й выборки в полученном вариационном ряду.

Статистика Ван дер Вардена имеет вид

T = \left(\sum_{i = 1}^N u^2( \frac{i}{N + 1} ) \right)^{-1} (N - 1) \sum_{i = 1}^{k} \frac{1}{n_i} \left( \sum_{j=1}^{n_i}  u^2( \frac{R_{ij}}{N + 1} ) \right)^2

Проверяется нулевая гипотеза H_0:\; F_1(x)=\dots=F_k(x) против альтернативы H_1:\; F_1(x)=F_2(x-\Delta_1)=\dots=F_k(x-\Delta_{k-1}).

Если нулевая гипотеза выполнена, то поведение статистики T хорошо описывается распределением хи-квадарат с k - 1 степенью свободы.

Нулевая гипотеза отвергается, если T > \chi^2_{\alpha, k - 1}, где chi^2_{\alpha, k - 1}квантиль уровня \alpha с k - 1 степенью свободы.


История

Критерий был предложен Ван дер Варденом в 1953 году.

Литература

  1. Ван дер Варден Б.Л. Математическая статистика/Пер.с нем. — М.:  Иностранная литература,1960 — 450 c.
  2. Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006. — 816 с.

См. также

различия между двумя выборками

Ссылки

Van_der_Waerden_test - статья в Википедии о многовыборочном критерии Ван дер Вардена

Данная статья является непроверенным учебным заданием.
Студент: Участник:Slimper
Преподаватель: Участник:Vokov
Срок: 08 января 2010

До указанного срока статья не должна редактироваться другими участниками проекта MachineLearning.ru. По его окончании любой участник вправе исправить данную статью по своему усмотрению и удалить данное предупреждение, выводимое с помощью шаблона {{Задание}}.

См. также методические указания по использованию Ресурса MachineLearning.ru в учебном процессе.


Личные инструменты