Участник:Василий Ломакин/Критерий Уилкоксона двухвыборочный

Материал из MachineLearning.

Перейти к: навигация, поиск

Критерий Уилкоксона (Вилкоксона) двухвыборочныйнепараметрический статистический критерий, используемый для проверки гипотезы о равенстве средних двух независимых выборок. Выборки взяты из закона распределения, отличного от нормального, либо данные измерены с использованием качественной шкалы. Метод следует использовать, когда нет информации о дисперсии выборок. В случае равных дисперсий следует применять более мощный U-критерий Манна-Уитни. Имеется аналог критерия Уилкоксона для связанных повторных наблюдений.

Содержание

Пример задачи

Подготовка роженицы к родам - см Лапач стр. 118.

Описание критерия

Заданы две выборки x^m = (x_1,\ldots,x_m),\; x_i \in \mathbb{R};\;\; y^n = (y_1,\ldots,y_n),\; y_i \in \mathbb{R};\; m \le n, в противном случае следует поменять выборки местами.

Дополнительное предположение: обе выборки простые, объединённая выборка независима;

Нулевая гипотеза H_0:\; обе выборки имеют одинаковое распеределение, то есть извлечены из одной генеральной совокупности. Следствием этого является равенство средних.

Вычисление статистики критерия:

  1. Построить общий вариационный ряд объединённой выборки x^{(1)} \leq \cdots \leq x^{(m+n)} и найти ранги r(x_i),\; r(y_i) всех элементов обеих выборок в общем вариационном ряду.
  2. Рассчитать суммы рангов, соответствующих обеим выборкам:
    R_x = \sum_{i=1}^m r(x_i);
    R_y = \sum_{i=1}^n r(y_i);
  3. Если размеры выборок совпадают (m=n), то значение статистики W будет равняется одной из сумм рангов R_x или R_y (любой).

Критерий (при уровне значимости \alpha):

Против альтернативы H_1:\; ????

если W \notin \left[ W_{\alpha/2},\,W_{1-\alpha/2} \right] , то нулевая гипотеза отвергается. Здесь W_{\alpha} есть \alpha-квантиль табличного распределения Уилкоксона с параметрами m,\,n.

Асимптотический критерий:

Рассмотрим нормированную и центрированную статистика Уилкоксона:

\tilde W = \frac{2W - m(m + n + 1) + 1}{sqrt{\frac{mn(m + n + 1)}{3}}};

\tilde W асимптотически имеет стандартное нормальное распределение. Нулевая гипотеза (против альтернативы H_1) отвергается, если  |\tilde W| > \Phi_{1-\alpha/2} , где \Phi_{\alpha} есть \alpha-квантиль стандартного нормального распределения.

Приближение можно использовать, если размер хотя бы одной из выборок превышает 25. Если размеры выборок равны, то данная аппроксимация хорошо работает до m = n = 8.

При наличии связок необходимо учесть их с помощью поправки. Выражение под корнем в знаменателе необходимо заменить на следующее:

\frac{mn}{12}(m + n + 1) - \frac{\sum^k_{i = 1}t_i(t_i^2-1)}{(m + n)(m + n + 1)},
где k - количество только тех связок, в которые входят ранги как одной, так и другой выборок, t_1, \ldots, t_k - их размеры.

Свойства и границы применимости критерия

История

Литература

  1. Лагутин М. Б. Наглядная математическая статистика. В двух томах. — М.: П-центр, 2003. — 204-209 с.
  2. Лапач С. Н. , Чубенко А. В., Бабич П. Н. Статистика в науке и бизнесе. — Киев: Морион, 2002. — 160-164 с.
  3. Орлов А. И. Эконометрика. — М.: Экзамен, 2003. — 576 с. (§4.5. Какие гипотезы можно проверять с помощью двухвыборочного критерия Вилкоксона?)

Ссылки

Личные инструменты