Критерий Шапиро-Уилка

Материал из MachineLearning.

Перейти к: навигация, поиск

Содержание

Критерий Шапиро-Уилка используется для проверки гипотезы H_0: «случайная величина X распределена нормально» и является одним наиболее эффективных критериев проверки нормальности. Критери, проверяющие нормальность выборки, являются частным случаем критериев согласия. Если выборка нормальна, можно далее применять мощные параметричексие критерии, например, критерий Фишера.

Описание критерия

Критерий Шапиро-Уилка основан на оптимальной линейной несмещённой оценке дисперсии к её обычной оценке методом максимального правдоподобия. Статистика критерия имеет вид:

W=\frac{1}{s^2}\left[\sum_{i=1}^k a_{n-i+1} (x_{n-i+1} -x_i)\right]^2,

где s^2=\sum_{i=1}^n (x_i -\overline{x})^2, \overline{x}=\frac{1}{n}\sum_{i=1}^n x_i.

Числитель является квадратом оценки среднеквадратического отклонения Ллойда.

Критерии значимости статистики W(\alpha) также находятся таблично.

Если W<W(\alpha), то нулевая статистика о нормальности распределения отклоняется на уровне значимости \alpha. Приближённая вероятность получения эмпирического значения W при H_0 вычисляется по формуле

z=\gamma+\eta \ln \left(\frac{W-\epsilon}{1-W}\right),

где \gamma,\; \eta,\; \epsilon — табличные коэффициенты.

Критерий Шапиро-Уилка является очень мощным критерием для проверки нормальности, но, к сожалению, имеет ограниченную применимость. При больших значениях n \;(n>100) таблицы коэффициентов a_{n-i+1} становятся неудобными. Поэтому была предложена модификация критерия Шапиро-Уилка, о которой рассказано ниже.

Критерий Шапиро-Франчиа

Введённая статистика имеет вид

W'=\frac{1}{s^2}\left[\sum_{i=1}^k c_{n-i+1} (x_{n-i+1} -x_i)\right]^2,

где c_{n-i+1}=\frac{m_{n-i+1}}{\left(\sum_{i=1}^n m_{i,n}^2\right)^{\frac{1}{2}} и m_{i,n} — математическое ожидание i-й порядковой статистики стандартного нормального распределения. Аппроксимация m_i=\Phi^{-1}\left(\frac{i-\frac{3}{8}}{n+\frac{1}{4}}\right)=u_p, где p=\frac{i-\frac{3}{8}}{n+\frac{1}{4}} не искажает существенно критерий W'.

Используя аппрокисмацию для квантили стандартного нормального распределения, можно записать

u_p=4,91\left[p^{0,14}-(1-p)^{0,14}\right],

и для p=\frac{i-\frac{3}{8}}{n+\frac{1}{4}} имеем m_i=4,91\left{\left(\frac{i-\frac{3}{8}}{n+\frac{1}{4}}\right)^{0,14}-\left(\frac{n-i+\frac{5}{8}}{n+\frac{1}{4}}\right)^{0,14}\right}.

Решение «табличной проблемы»

Была выведена полезная аппрокисмация, позволяющая применить критерий Шапиро-Уилка без помощи таблиц. Для \alpha=0,05 предлагается статистика

W_1=\left(1-\frac{0,6695}{n^{0,6518}}\right)\frac{s^2}{B},

где

B=\left{\sum_{j=1}^m a_j(x_{n-j}-x_j)\right}^2; \; m=\left[\frac{n}{2}\right]; \; a_0=\frac{0,899}{n-2,4^{0,4162}}-0,02; \; a_j=a_0\left[z+\frac{1483}{(3-z)^{10,845}}+\frac{71,610^{-10}}{(1,1-z)^{8,62}}\right]; \; z=\frac{n-2j+1}{n-0,5}.

Если W_1<1, то нулевая гипотеза нормальности распределения случайных величин отклоняется. Существует модификация критерия Шапиро-Уилка для случаев группированных данных (что существенно при наличии совпадающих наблюдений).

См. также

Ссылки

Литература

  1. Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006. — 238 с.


Статья в настоящий момент дорабатывается.
Дорофеев Н.Ю. 09:58, 12 ноября 2008 (MSK)
Личные инструменты