Участник:Василий Ломакин/Критерий Уилкоксона для связных выборок

Материал из MachineLearning.

< Участник:Василий Ломакин(Различия между версиями)
Перейти к: навигация, поиск
 
(10 промежуточных версий не показаны.)
Строка 1: Строка 1:
 +
{{TOCright}}
 +
TODO:
TODO:
-
# Пример
+
# Таблица ??? Найти в инете, скопировать и дать ссылку на источник?
-
# Критерий для коротких выборок
+
-
# Свойства и границы применимости критерия
+
-
# Всё ли я извлёк из обоих книг?
+
-
# Дополнительные предположения
+
-
# Ссылка на что такое связки
+
-
# Иллюстрации - критическая область, мощность и т.п.
+
-
'''Критерий Уилкоксона для связных выборок''' (Wilcoxon signed-rank test) — [[непараметрический статистический критерий]], применяющийся для связанных пар наблюдений. Наиболее часто используется для проверки гипотезы о равенстве средних в двух зависимых выборках. Является аналогом [[Критерий_Стьюдента|t-критерия Стьюдента для парных наблюдений]] в случае закона распределения, отличного от нормального, либо для данных в нечисловой шкале.
+
'''Критерий Уилкоксона (Вилкоксона) для связных выборок''' (Wilcoxon signed-rank test) — [[непараметрический статистический критерий]], применяемый для оценки различий между двумя '''зависимыми''' выборками, взятыми из закона распределения, отличного от нормального, либо измеренными с использованием [[Теория измерений|порядковой шкалы]]. Критерий является [[Ранговый критерий|ранговым]], поэтому он инвариантен по отношению к любому монотонному преобразованию шкалы измерения.
== Пример задачи ==
== Пример задачи ==
 +
Первая выборка - температура пациентов до начала лечения. Вторая - температура в точности этих же пациентов после введения лекарства. Требуется выяснить, повлияло ли применение лекарства на температуру больных. Выборки '''связные''', измерены в [[Теория измерений|порядковой шкале]].
== Описание критерия ==
== Описание критерия ==
Строка 18: Строка 15:
'''Дополнительные предположения:'''
'''Дополнительные предположения:'''
-
* простые выборки ????
+
* Обе выборки [[простая выборка|простые]].
-
* выборки связные, то есть элементы <tex>x_i,\: y_i</tex> соответствуют одному и тому же объекту, но измерения сделаны в разные моменты (например, до и после обработки).
+
* Выборки связные, то есть элементы <tex>x_i,\: y_i</tex> соответствуют одному и тому же объекту, но измерения сделаны в разные моменты (например, до и после обработки).
-
'''[[Нулевая гипотеза]]''' <tex>H_0:\; \mathbb{P} \{x_i-y_i < 0 \} = 1/2</tex>.
+
'''[[Нулевая гипотеза]]''' <tex>H_0:\; \mathbb{P} \{x_i < y_i \} = 1/2</tex>.
-
'''Статистика критерия:'''
+
'''Вычисление статистики критерия:'''
# Рассчитать значения разностей пар двух выборок. Нулевые разности далее не учитываются. <tex>N</tex> - количество ненулевых разностей.
# Рассчитать значения разностей пар двух выборок. Нулевые разности далее не учитываются. <tex>N</tex> - количество ненулевых разностей.
# Проранжировать модули разностей пар в возрастающем порядке.
# Проранжировать модули разностей пар в возрастающем порядке.
Строка 31: Строка 28:
'''Критерий''' (при [[уровень значимости|уровне значимости]] <tex>\alpha</tex>):
'''Критерий''' (при [[уровень значимости|уровне значимости]] <tex>\alpha</tex>):
-
Против альтернативы <tex>H_1:\; \mathbb{P} \{ x_i-y_i \} \neq 1/2</tex>:
+
Против альтернативы <tex>H_1:\; \mathbb{P} \{ x_i < y_i \} \neq 1/2</tex>:
-
: если <tex>R</tex> больше табличного значения критерия знаковых рангов Уилкоксона <tex>T^{+}</tex> с уровнем значимости <tex>\alpha/2</tex> и числом степеней свободы <tex>N</tex>, то нулевая гипотеза отвергается.
+
: если <tex>R</tex> больше табличного значения критерия знаковых рангов Уилкоксона <tex>T^{+}</tex><ref>Лапач С. Н. Статистика в науке и бизнесе. — 529 с.</ref><ref>Холлендер М., Вулф Д. Непараметрические методы статистики. — Табл. А.4.</ref> с уровнем значимости <tex>\alpha/2</tex> и числом степеней свободы <tex>N</tex>, то нулевая гипотеза отвергается.
-
'''Асимптотический критерий''':
+
'''Асимптотический критерий:'''
 +
 
 +
[[Изображение:Standard_Normal_Density_-_Right_Critical_Area.png|thumb|Критическая область критерия Уилкоксона для связных выборок.]]
Рассмотрим нормированную и центрированную статистика Уилкоксона:
Рассмотрим нормированную и центрированную статистика Уилкоксона:
-
:<tex>T = \frac{R - \frac{N(N+1)}{4}}{\sqrt{\frac{N(N+1)(2N+1)}{24}}}</tex>;
+
:<tex>\tilde T = \frac{R - \frac{N(N+1)}{4}}{\sqrt{\frac{N(N+1)(2N+1)}{24}}}</tex>;
-
<tex>T</tex> асимптотически имеет стандартное нормальное распределение при <tex>N \ge 20</tex>.
+
<tex>\tilde T</tex> асимптотически имеет стандартное нормальное распределение. Нулевая гипотеза (против альтернативы <tex>H_1</tex>) отвергается, если <tex> \tilde T \ge \Phi_{1-\alpha/2} </tex>, где <tex>\Phi_{1-\alpha}</tex> есть <tex>(1-\alpha)</tex>-[[квантиль]] стандартного нормального распределения.
-
При наличии связок необходимо учесть их с помощью поправки. Выражение под корнем в знаменателе необходимо заменить на следующее:
+
Аппроксимация начинает работать при <tex>N \ge 15</tex>.<ref>Лагутин М. Б. Наглядная математическая статистика. — 223 с.</ref>
-
:<tex>\frac{N(N+1)(2N+1) - \frac{\sum_{j=1}^{g}{t_j(t_j-1)(t_j+1)}}{2}}{24},</tex>
+
'''Поправка:'''<ref>Лагутин М. Б. Наглядная математическая статистика. — 223 с.</ref>
-
:где <tex>g</tex> - количество связок, <tex>t_1, \ldots, t_g</tex> - их размеры.
+
В 1974 году Р. Иман предложил следующую аппроксимацию, обеспечивающую значительное снижение относительной ошибки для критических значений. Она использует линейную комбинацию нормальной и стьюдентовской квантилей. Положим:
-
'''Другие гипотезы''':
+
<tex>\tilde T ^{*} = \frac12 \tilde T \left[ 1 + \sqrt{(n-1)(n - (\tilde T)^2)} \right]</tex>.
 +
 
 +
Гипотеза <tex>H_0</tex> отвергается, если <tex>\tilde T ^{*} \ge (x_{1-\alpha}+y_{1-\alpha})/2</tex>, где <tex>x_{1-\alpha},\; y_{1-\alpha}</tex> обозначают соответственно квантили уровня <tex>1-\alpha</tex> стандартного нормального распределения и распределения Стьюдента с <tex>n-1</tex> степенью свободы.
 +
 
 +
'''Случай совпадающих наблюдений:'''
 +
 
 +
При наличии [[Вариационный ряд|связок]] необходимо учесть их с помощью поправки. Выражение в знаменателе нормированной и центрированной статистики Уилкоксона необходимо заменить на следующее:
 +
 
 +
:<tex>\left{ \frac{N(N+1)(2N+1) - \frac{\sum_{j=1}^{g}{t_j(t_j-1)(t_j+1)}}{2}}{24} \right}^{1/2},</tex><ref>Лапач С. Н. Статистика в науке и бизнесе. — 156 с.</ref>
 +
 
 +
:где <tex>g</tex> - количество связок, <tex>t_1, \ldots, t_g</tex> - их размеры. Для элементов связок вычисляется [[Вариационный ряд|средний ранг]].
 +
 
 +
'''Другие гипотезы:'''
<tex>H_0:\; </tex> средняя разница между значениями пар двух выборок равна заданной константе A.
<tex>H_0:\; </tex> средняя разница между значениями пар двух выборок равна заданной константе A.
Строка 56: Строка 67:
В этом случае из каждой разности вычитается значение A, и дальнейшая обработка выполняется по описанной схеме.
В этом случае из каждой разности вычитается значение A, и дальнейшая обработка выполняется по описанной схеме.
-
== Свойства и границы применимости критерия ==
+
== Применение критерия ==
-
м?
+
Метод часто используется для сравнения показателей выборки до и после эксперимента, в частности для проверки гипотезы о равенстве медиан в двух зависимых выборках. Вообще говоря, можно строить примеры, когда медианы выборок различны, а гипотеза <tex>H_0</tex> верна, поэтому применять критерий для проверки такой гипотезы следует с осторожностью. Аналогичными недостатками (в своей области применения) обладают [[Критерий Уилкоксона двухвыборочный|двухвыборочный критерий Вилкоксона]] и [[Критерий_Уилкоксона-Манна-Уитни|U-критерий Манна-Уитни]].<ref>Орлов А. И. Эконометрика. — §4.5.</ref>
 +
 
 +
Критерий является аналогом [[Критерий Стьюдента|t-критерия Стьюдента для связанных выборок]] в случае распределения, отличного от нормального, либо данных, измеренных в количественной шкале. К нормально распределённым совокупностям следует применять более мощный t-критерий.
 +
 
 +
== История ==
 +
Данный критерий назван именем Френка Уилкоксона (1892-1965). Статья, выпущенная им в 1945 году, содержала также описание [[Критерий_Уилкоксона_двухвыборочный|аналогичного метода]] для случая независимых выборок.
 +
 
 +
== Примечания ==
 +
<references/>
== Литература ==
== Литература ==
# ''Лапач С. Н., Чубенко А. В., Бабич П. Н.'' Статистика в науке и бизнесе. — Киев: Морион, 2002. — 164-166 с.
# ''Лапач С. Н., Чубенко А. В., Бабич П. Н.'' Статистика в науке и бизнесе. — Киев: Морион, 2002. — 164-166 с.
# ''Кобзарь А. И.'' Прикладная математическая статистика. — М.: Физматлит, 2006. — 457-458 с.
# ''Кобзарь А. И.'' Прикладная математическая статистика. — М.: Физматлит, 2006. — 457-458 с.
 +
# ''Орлов А. И.'' Эконометрика. — М.: Экзамен, 2003. — §4.5.
 +
# ''Лагутин М. Б.'' Наглядная математическая статистика. В двух томах. — М.: П-центр, 2003. — 222-227 с.
 +
# ''Холлендер М., Вулф Д.'' Непараметрические методы статистики. — М.: Финансы и статистика, 1983.
== Ссылки ==
== Ссылки ==
* [[Проверка статистических гипотез]] — о методологии проверки статистических гипотез.
* [[Проверка статистических гипотез]] — о методологии проверки статистических гипотез.
-
* [[Критерий Уилкоксона-Манна-Уитни]]
+
* [[Критерий Уилкоксона двухвыборочный]] — аналог критерия для случая независимых выборок.
-
* [http://en.wikipedia.org/wiki/Wilcoxon_signed-rank_test Wilcoxon signed-rank test] (Wikipedia).
+
* [http://en.wikipedia.org/wiki/Wilcoxon_signed-rank_test Wilcoxon signed-rank test] — статья в англоязычной Википедии.

Текущая версия

Содержание

TODO:

  1. Таблица ??? Найти в инете, скопировать и дать ссылку на источник?

Критерий Уилкоксона (Вилкоксона) для связных выборок (Wilcoxon signed-rank test) — непараметрический статистический критерий, применяемый для оценки различий между двумя зависимыми выборками, взятыми из закона распределения, отличного от нормального, либо измеренными с использованием порядковой шкалы. Критерий является ранговым, поэтому он инвариантен по отношению к любому монотонному преобразованию шкалы измерения.

Пример задачи

Первая выборка - температура пациентов до начала лечения. Вторая - температура в точности этих же пациентов после введения лекарства. Требуется выяснить, повлияло ли применение лекарства на температуру больных. Выборки связные, измерены в порядковой шкале.

Описание критерия

Заданы две выборки x^m = (x_1,\ldots,x_m),\; x_i \in \mathbb{R};\;\; y^n = (y_1,\ldots,y_n),\; y_i \in \mathbb{R}.

Дополнительные предположения:

  • Обе выборки простые.
  • Выборки связные, то есть элементы x_i,\: y_i соответствуют одному и тому же объекту, но измерения сделаны в разные моменты (например, до и после обработки).

Нулевая гипотеза H_0:\; \mathbb{P} \{x_i < y_i \} = 1/2.

Вычисление статистики критерия:

  1. Рассчитать значения разностей пар двух выборок. Нулевые разности далее не учитываются. N - количество ненулевых разностей.
  2. Проранжировать модули разностей пар в возрастающем порядке.
  3. Приписать рангам знаки соответствующих им разностей.
  4. Рассчитать сумму R положительных рангов.

Критерий (при уровне значимости \alpha):

Против альтернативы H_1:\; \mathbb{P} \{ x_i < y_i \} \neq 1/2:

если R больше табличного значения критерия знаковых рангов Уилкоксона T^{+}[1][2] с уровнем значимости \alpha/2 и числом степеней свободы N, то нулевая гипотеза отвергается.

Асимптотический критерий:

Критическая область критерия Уилкоксона для связных выборок.
Критическая область критерия Уилкоксона для связных выборок.

Рассмотрим нормированную и центрированную статистика Уилкоксона:

\tilde T = \frac{R - \frac{N(N+1)}{4}}{\sqrt{\frac{N(N+1)(2N+1)}{24}}};

\tilde T асимптотически имеет стандартное нормальное распределение. Нулевая гипотеза (против альтернативы H_1) отвергается, если  \tilde T \ge \Phi_{1-\alpha/2} , где \Phi_{1-\alpha} есть (1-\alpha)-квантиль стандартного нормального распределения.

Аппроксимация начинает работать при N \ge 15.[3]

Поправка:[4]

В 1974 году Р. Иман предложил следующую аппроксимацию, обеспечивающую значительное снижение относительной ошибки для критических значений. Она использует линейную комбинацию нормальной и стьюдентовской квантилей. Положим:

\tilde T ^{*} = \frac12 \tilde T \left[ 1 + \sqrt{(n-1)(n - (\tilde T)^2)} \right].

Гипотеза H_0 отвергается, если \tilde T ^{*} \ge (x_{1-\alpha}+y_{1-\alpha})/2, где x_{1-\alpha},\; y_{1-\alpha} обозначают соответственно квантили уровня 1-\alpha стандартного нормального распределения и распределения Стьюдента с n-1 степенью свободы.

Случай совпадающих наблюдений:

При наличии связок необходимо учесть их с помощью поправки. Выражение в знаменателе нормированной и центрированной статистики Уилкоксона необходимо заменить на следующее:

\left{ \frac{N(N+1)(2N+1) - \frac{\sum_{j=1}^{g}{t_j(t_j-1)(t_j+1)}}{2}}{24} \right}^{1/2},[5]
где g - количество связок, t_1, \ldots, t_g - их размеры. Для элементов связок вычисляется средний ранг.

Другие гипотезы:

H_0:\; средняя разница между значениями пар двух выборок равна заданной константе A.

H_1:\; средняя разница не равна A.

В этом случае из каждой разности вычитается значение A, и дальнейшая обработка выполняется по описанной схеме.

Применение критерия

Метод часто используется для сравнения показателей выборки до и после эксперимента, в частности для проверки гипотезы о равенстве медиан в двух зависимых выборках. Вообще говоря, можно строить примеры, когда медианы выборок различны, а гипотеза H_0 верна, поэтому применять критерий для проверки такой гипотезы следует с осторожностью. Аналогичными недостатками (в своей области применения) обладают двухвыборочный критерий Вилкоксона и U-критерий Манна-Уитни.[6]

Критерий является аналогом t-критерия Стьюдента для связанных выборок в случае распределения, отличного от нормального, либо данных, измеренных в количественной шкале. К нормально распределённым совокупностям следует применять более мощный t-критерий.

История

Данный критерий назван именем Френка Уилкоксона (1892-1965). Статья, выпущенная им в 1945 году, содержала также описание аналогичного метода для случая независимых выборок.

Примечания

  1. Лапач С. Н. Статистика в науке и бизнесе. — 529 с.
  2. Холлендер М., Вулф Д. Непараметрические методы статистики. — Табл. А.4.
  3. Лагутин М. Б. Наглядная математическая статистика. — 223 с.
  4. Лагутин М. Б. Наглядная математическая статистика. — 223 с.
  5. Лапач С. Н. Статистика в науке и бизнесе. — 156 с.
  6. Орлов А. И. Эконометрика. — §4.5.

Литература

  1. Лапач С. Н., Чубенко А. В., Бабич П. Н. Статистика в науке и бизнесе. — Киев: Морион, 2002. — 164-166 с.
  2. Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006. — 457-458 с.
  3. Орлов А. И. Эконометрика. — М.: Экзамен, 2003. — §4.5.
  4. Лагутин М. Б. Наглядная математическая статистика. В двух томах. — М.: П-центр, 2003. — 222-227 с.
  5. Холлендер М., Вулф Д. Непараметрические методы статистики. — М.: Финансы и статистика, 1983.

Ссылки

Личные инструменты