Участник:Slimper/Песочница

Материал из MachineLearning.

< Участник:Slimper(Различия между версиями)
Перейти к: навигация, поиск
м (декатегоризация)
 
(12 промежуточных версий не показаны.)
Строка 1: Строка 1:
-
'''Критерий Ван-дер-Вардена''' — [[непараметрический статистический критерий]], используемый для оценки различий между двумя [[выборка]]ми по признаку, измеренному в количественной [[шкала измерения|шкале]]. Критерий является ранговым, поэтому он инвариантен по отношению
+
'''Критерий Бартелса (Bartels test)''' — [[непараметрический статистический критерий]], используемый для проверки случайности последовательности наблюдаемых значений. Критерий является ранговым, поэтому он инвариантен по отношению к любому монотонному преобразованию шкалы измерения. Критерий Бартелса можно применять для анализа регрессионных остатков.
-
к любому монотонному преобразованию шкалы измерения.
+
Также его можно применять при анализе [[временной ряд|временных рядов]] для выявления тренда.
== Примеры задач ==
== Примеры задач ==
-
 
'''Пример 1.'''
'''Пример 1.'''
-
Первая выборка — это пациенты, которых лечили препаратом&nbsp;А.
+
Ряд значений состоит из подсчитанного на протяжении нескольких лет количества туристов, посещавших страну в течение года.
-
Вторая выборка — пациенты, которых лечили препаратом&nbsp;Б.
+
Требуется установить, являются ли число туристов, случайным, или оно
-
Значения в выборках — это некоторая характеристика эффективности лечения (уровень метаболита в крови, температура через три дня после начала лечения, срок выздоровления, число койко-дней, и т.д.)
+
подчиняется какой-то закономерности.
-
Требуется выяснить, имеется ли значимое различие эффективности препаратов&nbsp;А&nbsp;и&nbsp;Б, или различия являются чисто случайными и объясняются «естественной» дисперсией выбранной характеристики.
+
-
 
+
-
'''Пример 2.'''
+
-
Первая выборка — это поля, обработанные агротехническим методом&nbsp;А.
+
-
Вторая выборка — поля, обработанные агротехническим методом&nbsp;Б.
+
-
Значения в выборках — это урожайность.
+
-
Требуется выяснить, является ли один из методов эффективнее другого, или различия урожайности обусловлены случайными факторами.
+
-
 
+
-
'''Пример 3.'''
+
-
Первая выборка — это дни, когда в супермаркете проходила промо-акция типа&nbsp;А (красные ценники со скидкой).
+
-
Вторая выборка — дни промо-акции типа&nbsp;Б (каждая пятая пачка бесплатно).
+
-
Значения в выборках — это показатель эффективности промо-акции (объём продаж, либо выручка в рублях).
+
-
Требуется выяснить, какой из типов промо-акции более эффективен.
+
== Описание критерия ==
== Описание критерия ==
 +
Заданы выборка <tex>x^n = (x_1,\ldots,x_n),x_i \in \mathbb{R}</tex>.
-
Заданы две выборки <tex>x^m = (x_1,\ldots,x_m),\; x_i \in \mathbb{R};\;\; y^n = (y_1,\ldots,y_n),\; y_i \in \mathbb{R}</tex>.
+
'''[[Нулевая гипотеза]]''' <tex>H_0:\;</tex> выборка <tex>x^n</tex> [[простая выборка|простая]], то
-
 
+
есть все наблюдения <tex>x_i</tex> — независимы и одинаково распределены.
-
'''Дополнительные предположения:'''
+
-
* обе выборки [[простая выборка|простые]], объединённая выборка [[независимая выборка|независима]];
+
-
* выборки взяты из неизвестных непрерывных распределений <tex>F(x)</tex> и <tex>G(y)</tex> соответственно.
+
-
 
+
-
'''[[Нулевая гипотеза]]''' <tex>H_0:\; F(x) = G(y)</tex>.
+
'''Статистика критерия:'''
'''Статистика критерия:'''
-
# Построить общий [[вариационный ряд]] объединённой выборки <tex>z^{(1)} \leq \cdots \leq z^{(m+n)}</tex> и найти ранги <tex>r(x_i)</tex> элементов первой выборки в общем вариационном ряду.
+
# Построить [[вариационный ряд]] выборки <tex>x^{(1)}(x_1,\ldots,x_n)</tex> и найти ранги <tex>r(x_i)</tex> всех элементов.
-
# Статистика критерия ван дер Вардена вычисляется по формуле:
+
# Статистика критерия Бартелса вычисляется по формуле:
-
<tex>X = \sum_{i = 1}^n u( \frac{r(x_i)}{ m + n + 1} )</tex>, где
+
::<tex>B = \frac{ \sum_{i = 1}^n (r(x_i) - r(x_{i + 1}) )^2 }{ \sum(R_i - \frac{n + 1}{2})^2}</tex>
-
<tex>u( \frac{r(x_i)}{ m + n + 1} )</tex> — [[квантиль]]
+
-
[[стандартное нормальное распределение| стандартного нормального распределения]]
+
-
'''Критерий''' (при [[уровень значимости|уровне значимости]] <tex>\alpha</tex>):
+
Варианты критерия (при [[уровень значимости|уровне значимости]] <tex>\alpha</tex>):
-
* двусторонний критерий против альтернативы <tex>H_1:\; \mathbb{P} \{ x<y \} \neq 1/2</tex>
+
* двусторонний критерий (против альтернативы, что данные не случайны)
-
::если <tex> X \notin \left[ X_{\alpha/2},\, X_{1-\alpha/2} \right] </tex>, то нулевая гипотеза отвергается;
+
::если <tex> B \in \left[ B_{n,\alpha/2},\, B_{n,1-\alpha/2} \right] </tex>, то нулевая гипотеза отвергается;
-
* односторонний критерий -- против альтернативы <tex>H'_1:\; \mathbb{P} \{ x>y \} > 1/2</tex>
+
* левосторонний критерий(против альтернативы, что наблюдения положительно коррелированы)
-
::если <tex> X_> X_{1-\alpha} </tex>, то нулевая гипотеза отвергается;
+
::если <tex> B < B_{n,\alpha} </tex>, то нулевая гипотеза отвергается;
 +
* правосторонний критерий(против альтернативы, что наблюдения отрицательно коррелированы)
 +
::если <tex> B > B_{n,\alpha} </tex>, то нулевая гипотеза отвергается;
-
Здесь <tex> X_{\alpha} </tex> -- это <tex>\alpha</tex>-[[квантиль]] табличного распределения статистики Ван дер Вардена с параметрами <tex>m,\,n</tex>.
+
Здесь <tex> B_{n,\alpha} </tex> -- это <tex>\alpha</tex>-[[квантиль]] табличного распределения статистики Бартелса с параметром <tex>n</tex>.
===Асимптотический критерий ===
===Асимптотический критерий ===
-
Распределение статистики Ван дер Вардена асимптотически нормально
+
Распределение статистики Бартелса асимптотически нормально
-
с нулевым матожиданием <tex>\mathbb{E}X = 0</tex> и дисперсией
+
с матожиданием <tex>\mathbb{E}B = 2</tex> и дисперсией
 +
::<tex> \mathbb{D}B = \frac{4(n - 2)(5n^2 - 2n - 9)}{5n(n + 1)(n - 1)^2} </tex>
-
::<tex>
+
Поэтому при
-
\mathbb{D}X =
+
<tex>n \ge 20</tex> используется нормированная статистика Бартелса
-
\frac{mn}{(m + n)(m + n - 1)}
+
::<tex>B' = \frac{B - \mathbb{E}B}{\sqrt{\mathbb{D}B} } </tex>
-
\sum_{i = 1}^{m + n} u^2( \frac{i}{m + n + 1} )
+
-
</tex>
+
-
Нормальную аппроксимацию статистики Ван дер Вардена можно использовать при
+
== Свойства критерия Бартелса==
-
<tex> m, n \geqslant 20</tex>.
+
Бартелс с помошью численного моделирования показал , что во многих случаях критерий Бартелса имеет большую мощность, чем [[Критерий Вальда-Вольфовица|критерий серий]].
-
 
+
-
В этом случае критерии (при [[уровень значимости|уровне значимости]] <tex>\alpha</tex>)
+
-
будет выглядеть следующим образом:
+
-
 
+
-
* двусторонний критерий <tex> \frac{X}{\mathbb{D}X} \notin \left[ u_{\alpha/2},\, u_{1-\alpha/2} \right] </tex>, то нулевая гипотеза отвергается;
+
-
 
+
-
* односторонний критерий -- против альтернативы <tex>H'_1:\; \mathbb{P} \{ x>y \} > 1/2</tex>
+
-
::если <tex> \frac{X}{\mathbb{D}X}_> u_{1-\alpha} </tex>, то нулевая гипотеза отвергается;
+
-
 
+
-
=== Свойства критерия Ван дер Вардена ===
+
-
Критерий Ван
+
-
Иногда ошибочно считают, что U-критерий проверяет нулевую [[гипотеза однородности|гипотезу однородности]]
+
-
<tex>H_{00}:\; F(x)=G(y)</tex>, то есть что две выборки взяты из одного и того же распределения.
+
-
U-критерий не является состоятельным против общей альтернативы
+
-
<tex>H_1:\; F(x) \neq G(y)</tex>.
+
-
Это означает, что гипотеза однородности будет приниматься чаще, чем она на самом деле верна.
+
-
Существуют ситуации, когда гипотеза <tex>H_{0}</tex> верна, а более сильная гипотеза однородности <tex>H_{00}</tex> не верна [Орлов].
+
-
Для проверки [[гипотеза однородности|однородности]] существуют более мощные критерии, в частности, [[критерий Смирнова]] или [[критерий Лемана-Розенблатта]].
+
-
 
+
-
Иногда ошибочно считают, что U-критерий проверяет нулевую гипотезу равенства медиан в двух выборках.
+
-
Существуют распределения, для которых гипотеза <tex>H_{0}</tex> верна, но их медианы различны.
+
-
 
+
-
U-критерий можно применять для проверки [[гипотеза сдвига|гипотезы сдвига]] в качестве альтернативной
+
-
<tex>H_{1}:\; F(x)=G(x+r)</tex>, где <tex>r</tex> — некоторая константа, отличная от нуля.
+
-
При этой альтернативе U-критерий является [[состоятельный критерий|состоятельным]].
+
-
Его целесообразно применять, если одним и тем же прибором проводятся две серии измерений двух значений некоторой физической величины. При этом функция распределения <tex>G(x)</tex> описывает погрешности измерения одного значения, а <tex>G(x+r)</tex> — другого. Однако во многих приложениях (в&nbsp;частности, эконометрических) нет особых оснований предполагать, что распределение второй выборки лишь сдвигается, но не меняется каким-либо иным образом.
+
-
 
+
-
U-критерий является непараметрическим аналогом [[Критерий Стьюдента|критерия Стьюдента]].
+
-
Если [[нормальная выборка|выборки нормальные]], то для проверки гипотезы сдвига предпочтительно применить более мощный критерий Стьюдента.
+
-
 
+
-
=== Многомерное обобщение критерия Ван дер Вардена ===
+
== История ==
== История ==
-
Критерий был предложен Ван-дер-Варденом в 1953 году
+
Критерий был предложен Бартелсом в 1982 году.
== Литература ==
== Литература ==
-
# ''ван дер Варден Б.Л.'' Математическая статистика/Пер.с нем. — М.:&nbsp; Иностранная литература,1960 450&nbsp;c.
+
 
 +
# ''Gibbons J. D., Chakraborti S.'' Nonparametric Statistical Inference, 4th Ed. — CRC, 2003 608&nbsp;с.
# ''Кобзарь А. И.'' Прикладная математическая статистика. — М.:&nbsp;Физматлит, 2006. — 816&nbsp;с.
# ''Кобзарь А. И.'' Прикладная математическая статистика. — М.:&nbsp;Физматлит, 2006. — 816&nbsp;с.
Строка 103: Строка 54:
* [[Проверка статистических гипотез]] — о методологии проверки статистических гипотез.
* [[Проверка статистических гипотез]] — о методологии проверки статистических гипотез.
* [[Статистика (функция выборки)]]
* [[Статистика (функция выборки)]]
-
* [[Критерий Стьюдента]]
+
* [[Критерий Вальда-Вольфовица|Критерий серий]] — другой критерий для проверки случайности ряда наблюдений
 +
 
== Ссылки ==
== Ссылки ==
-
[[Категория:Статистические тесты]]
 
-
[[Категория:Непараметрические статистические тесты]]
 
{{Задание|Slimper|Vokov|08 января 2010}}
{{Задание|Slimper|Vokov|08 января 2010}}

Текущая версия

Критерий Бартелса (Bartels test)непараметрический статистический критерий, используемый для проверки случайности последовательности наблюдаемых значений. Критерий является ранговым, поэтому он инвариантен по отношению к любому монотонному преобразованию шкалы измерения. Критерий Бартелса можно применять для анализа регрессионных остатков. Также его можно применять при анализе временных рядов для выявления тренда.

Содержание

Примеры задач

Пример 1. Ряд значений состоит из подсчитанного на протяжении нескольких лет количества туристов, посещавших страну в течение года. Требуется установить, являются ли число туристов, случайным, или оно подчиняется какой-то закономерности.

Описание критерия

Заданы выборка x^n = (x_1,\ldots,x_n),x_i \in \mathbb{R}.

Нулевая гипотеза H_0:\; выборка x^n простая, то есть все наблюдения x_i — независимы и одинаково распределены.

Статистика критерия:

  1. Построить вариационный ряд выборки x^{(1)}(x_1,\ldots,x_n) и найти ранги r(x_i) всех элементов.
  2. Статистика критерия Бартелса вычисляется по формуле:
B = \frac{ \sum_{i = 1}^n (r(x_i) - r(x_{i + 1}) )^2 }{ \sum(R_i - \frac{n + 1}{2})^2}

Варианты критерия (при уровне значимости \alpha):

  • двусторонний критерий (против альтернативы, что данные не случайны)
если  B \in \left[ B_{n,\alpha/2},\, B_{n,1-\alpha/2} \right] , то нулевая гипотеза отвергается;
  • левосторонний критерий(против альтернативы, что наблюдения положительно коррелированы)
если  B < B_{n,\alpha} , то нулевая гипотеза отвергается;
  • правосторонний критерий(против альтернативы, что наблюдения отрицательно коррелированы)
если  B > B_{n,\alpha} , то нулевая гипотеза отвергается;

Здесь  B_{n,\alpha} -- это \alpha-квантиль табличного распределения статистики Бартелса с параметром n.

Асимптотический критерий

Распределение статистики Бартелса асимптотически нормально с матожиданием \mathbb{E}B = 2 и дисперсией

 \mathbb{D}B = \frac{4(n - 2)(5n^2 - 2n - 9)}{5n(n + 1)(n - 1)^2}

Поэтому при n \ge 20 используется нормированная статистика Бартелса

B' = \frac{B - \mathbb{E}B}{\sqrt{\mathbb{D}B} }

Свойства критерия Бартелса

Бартелс с помошью численного моделирования показал , что во многих случаях критерий Бартелса имеет большую мощность, чем критерий серий.

История

Критерий был предложен Бартелсом в 1982 году.

Литература

  1. Gibbons J. D., Chakraborti S. Nonparametric Statistical Inference, 4th Ed. — CRC, 2003 — 608 с.
  2. Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006. — 816 с.

См. также

Ссылки

Данная статья является непроверенным учебным заданием.
Студент: Участник:Slimper
Преподаватель: Участник:Vokov
Срок: 08 января 2010

До указанного срока статья не должна редактироваться другими участниками проекта MachineLearning.ru. По его окончании любой участник вправе исправить данную статью по своему усмотрению и удалить данное предупреждение, выводимое с помощью шаблона {{Задание}}.

См. также методические указания по использованию Ресурса MachineLearning.ru в учебном процессе.


Личные инструменты