Участник:Василий Ломакин/Критерий Уилкоксона для связных выборок

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
Строка 9: Строка 9:
# Вычисление рангов для связок
# Вычисление рангов для связок
-
'''Критерий Уилкоксона (Вилкоксона) для связных выборок''' (Wilcoxon signed-rank test) — [[непараметрический статистический критерий]], применяемый для оценки
+
'''Критерий Уилкоксона (Вилкоксона) для связных выборок''' (Wilcoxon signed-rank test) — [[непараметрический статистический критерий]], применяемый для оценки различий между двумя '''зависимыми''' выборками, взятыми из закона распределения, отличного от нормального, либо измеренными с использованием порядковой шкалы. Критерий является ранговым, поэтому он инвариантен по отношению к любому монотонному преобразованию шкалы измерения.
-
 
+
-
 
+
-
 
+
-
применяемый для проверки гипотезы о равенстве средних в двух '''зависимых''' выборках. Является аналогом [[Критерий_Стьюдента|t-критерия Стьюдента для парных наблюдений]] в случае закона распределения, отличного от нормального, либо для данных в [[Теория измерений|качественной шкале]]. Критерий является ранговым, поэтому он инвариантен по отношению к любому монотонному преобразованию шкалы измерения.
+
== Пример задачи ==
== Пример задачи ==
 +
Какой-нибудь простой пример проверки на равенство средних в случае зависимых выборок
== Описание критерия ==
== Описание критерия ==
Строка 36: Строка 33:
'''Критерий''' (при [[уровень значимости|уровне значимости]] <tex>\alpha</tex>):
'''Критерий''' (при [[уровень значимости|уровне значимости]] <tex>\alpha</tex>):
-
Против альтернативы <tex>H_1:\; \mathbb{P} \{ x_i-y_i < 0 \} \neq 1/2</tex>:
+
Против альтернативы <tex>H_1:\; \mathbb{P} \{ x_i < y_i \} \neq 1/2</tex>:
: если <tex>R</tex> больше табличного значения критерия знаковых рангов Уилкоксона <tex>T^{+}</tex> с уровнем значимости <tex>\alpha/2</tex> и числом степеней свободы <tex>N</tex>, то нулевая гипотеза отвергается.
: если <tex>R</tex> больше табличного значения критерия знаковых рангов Уилкоксона <tex>T^{+}</tex> с уровнем значимости <tex>\alpha/2</tex> и числом степеней свободы <tex>N</tex>, то нулевая гипотеза отвергается.
Строка 45: Строка 42:
:<tex>\tilde T = \frac{R - \frac{N(N+1)}{4}}{\sqrt{\frac{N(N+1)(2N+1)}{24}}}</tex>;
:<tex>\tilde T = \frac{R - \frac{N(N+1)}{4}}{\sqrt{\frac{N(N+1)(2N+1)}{24}}}</tex>;
-
<tex>\tilde T</tex> асимптотически имеет стандартное нормальное распределение. Аппроксимация начинает хорошо работать при <tex>N \ge 20</tex>.
+
<tex>\tilde T</tex> асимптотически имеет стандартное нормальное распределение. Аппроксимация начинает работать при <tex>N \ge 20</tex>.
-
При наличии связок необходимо учесть их с помощью поправки. Выражение под корнем в знаменателе необходимо заменить на следующее:
+
При наличии связок необходимо учесть их с помощью поправки. Выражение в знаменателе необходимо заменить на следующее:
-
:<tex>\frac{N(N+1)(2N+1) - \frac{\sum_{j=1}^{g}{t_j(t_j-1)(t_j+1)}}{2}}{24},</tex>
+
:<tex>\left{ \frac{N(N+1)(2N+1) - \frac{\sum_{j=1}^{g}{t_j(t_j-1)(t_j+1)}}{2}}{24} \right}^{1/2},</tex>
:где <tex>g</tex> - количество связок, <tex>t_1, \ldots, t_g</tex> - их размеры.
:где <tex>g</tex> - количество связок, <tex>t_1, \ldots, t_g</tex> - их размеры.
Строка 66: Строка 63:
== История ==
== История ==
Данный критерий назван именем Френка Уилкоксона (1892-1965). Статья, выпущенная им в 1945 году, содержала также описание [[Критерий_Уилкоксона_двухвыборочный|аналогичного метода]] для случая независимых выборок.
Данный критерий назван именем Френка Уилкоксона (1892-1965). Статья, выпущенная им в 1945 году, содержала также описание [[Критерий_Уилкоксона_двухвыборочный|аналогичного метода]] для случая независимых выборок.
 +
 +
== Примечания ==
 +
<references/>
== Литература ==
== Литература ==

Версия 18:24, 14 декабря 2009

TODO:

  1. Пример
  2. Критерий для коротких выборок
  3. Свойства и границы применимости критерия
  4. Всё ли я извлёк из обоих книг?
  5. Дополнительные предположения
  6. Ссылка на что такое связки
  7. Иллюстрации - критическая область, мощность и т.п.
  8. Вычисление рангов для связок

Критерий Уилкоксона (Вилкоксона) для связных выборок (Wilcoxon signed-rank test) — непараметрический статистический критерий, применяемый для оценки различий между двумя зависимыми выборками, взятыми из закона распределения, отличного от нормального, либо измеренными с использованием порядковой шкалы. Критерий является ранговым, поэтому он инвариантен по отношению к любому монотонному преобразованию шкалы измерения.

Содержание

Пример задачи

Какой-нибудь простой пример проверки на равенство средних в случае зависимых выборок

Описание критерия

Заданы две выборки x^m = (x_1,\ldots,x_m),\; x_i \in \mathbb{R};\;\; y^n = (y_1,\ldots,y_n),\; y_i \in \mathbb{R}.

Дополнительные предположения:

  • Обе выборки простые.
  • Выборки связные, то есть элементы x_i,\: y_i соответствуют одному и тому же объекту, но измерения сделаны в разные моменты (например, до и после обработки).

Нулевая гипотеза H_0:\; \mathbb{P} \{x_i < y_i \} = 1/2.

Вычисление статистики критерия:

  1. Рассчитать значения разностей пар двух выборок. Нулевые разности далее не учитываются. N - количество ненулевых разностей.
  2. Проранжировать модули разностей пар в возрастающем порядке.
  3. Приписать рангам знаки соответствующих им разностей.
  4. Рассчитать сумму R положительных рангов.

Критерий (при уровне значимости \alpha):

Против альтернативы H_1:\; \mathbb{P} \{ x_i < y_i \} \neq 1/2:

если R больше табличного значения критерия знаковых рангов Уилкоксона T^{+} с уровнем значимости \alpha/2 и числом степеней свободы N, то нулевая гипотеза отвергается.

Асимптотический критерий:

Рассмотрим нормированную и центрированную статистика Уилкоксона:

\tilde T = \frac{R - \frac{N(N+1)}{4}}{\sqrt{\frac{N(N+1)(2N+1)}{24}}};

\tilde T асимптотически имеет стандартное нормальное распределение. Аппроксимация начинает работать при N \ge 20.

При наличии связок необходимо учесть их с помощью поправки. Выражение в знаменателе необходимо заменить на следующее:

\left{ \frac{N(N+1)(2N+1) - \frac{\sum_{j=1}^{g}{t_j(t_j-1)(t_j+1)}}{2}}{24} \right}^{1/2},
где g - количество связок, t_1, \ldots, t_g - их размеры.

Другие гипотезы:

H_0:\; средняя разница между значениями пар двух выборок равна заданной константе A.

H_1:\; средняя разница не равна A.

В этом случае из каждой разности вычитается значение A, и дальнейшая обработка выполняется по описанной схеме.

Свойства и границы применимости критерия

м?

История

Данный критерий назван именем Френка Уилкоксона (1892-1965). Статья, выпущенная им в 1945 году, содержала также описание аналогичного метода для случая независимых выборок.

Примечания


Литература

  1. Лапач С. Н., Чубенко А. В., Бабич П. Н. Статистика в науке и бизнесе. — Киев: Морион, 2002. — 164-166 с.
  2. Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006. — 457-458 с.

Ссылки

Личные инструменты