Критерий Шапиро-Уилка

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
Строка 1: Строка 1:
{{TOCright}}
{{TOCright}}
-
'''Критерий Шапиро-Уилка''' используется для проверки гипотезы <tex>H_0</tex>: «случайная величина <tex>X</tex> распределена нормально» и является одним наиболее эффективных критериев проверки нормальности. Критери, проверяющие нормальность [[выборка|выборки]], являются частным случаем [[Проверка статистических гипотез#Критерии согласия|критериев согласия]]. Если выборка нормальна, можно далее применять мощные параметричексие критерии, например, [[критерий Фишера]].
+
'''Критерий Шапиро-Уилка''' используется для проверки [[нулевая гипотеза|гипотезы]] <tex>H_0</tex>: «случайная величина <tex>X</tex> распределена нормально» и является одним наиболее эффективных критериев проверки нормальности. Критери, проверяющие нормальность [[выборка|выборки]], являются частным случаем [[Проверка статистических гипотез#Критерии согласия|критериев согласия]]. Если выборка нормальна, можно далее применять мощные параметричексие критерии, например, [[критерий Фишера]].
== Описание критерия ==
== Описание критерия ==
Критерий Шапиро-Уилка основан на оптимальной линейной [[несмещённая оценка|несмещённой оценке]] дисперсии к её обычной оценке методом максимального правдоподобия.
Критерий Шапиро-Уилка основан на оптимальной линейной [[несмещённая оценка|несмещённой оценке]] дисперсии к её обычной оценке методом максимального правдоподобия.
Строка 18: Строка 18:
Критерий Шапиро-Уилка является очень мощным критерием для проверки нормальности, но, к сожалению, имеет ограниченную применимость.
Критерий Шапиро-Уилка является очень мощным критерием для проверки нормальности, но, к сожалению, имеет ограниченную применимость.
При больших значениях <tex>n \;(n>100)</tex> таблицы коэффициентов <tex>a_{n-i+1}</tex> становятся неудобными.
При больших значениях <tex>n \;(n>100)</tex> таблицы коэффициентов <tex>a_{n-i+1}</tex> становятся неудобными.
-
Для решение этой проблемыбыла предложена модификация критерия Шапиро-Уилка, о которой рассказано ниже.
+
Поэтому была предложена модификация критерия Шапиро-Уилка, о которой рассказано ниже.
== Критерий Шапиро-Франчиа ==
== Критерий Шапиро-Франчиа ==
Строка 30: Строка 30:
::<tex>u_p=4,91\left[p^{0,14}-(1-p)^{0,14}\right]</tex>, <br />
::<tex>u_p=4,91\left[p^{0,14}-(1-p)^{0,14}\right]</tex>, <br />
и для <tex>p=\frac{i-\frac{3}{8}}{n+\frac{1}{4}}</tex> имеем <tex>m_i=4,91\left{\left(\frac{i-\frac{3}{8}}{n+\frac{1}{4}}\right)^{0,14}-\left(\frac{n-i+\frac{5}{8}}{n+\frac{1}{4}}\right)^{0,14}\right}</tex>.
и для <tex>p=\frac{i-\frac{3}{8}}{n+\frac{1}{4}}</tex> имеем <tex>m_i=4,91\left{\left(\frac{i-\frac{3}{8}}{n+\frac{1}{4}}\right)^{0,14}-\left(\frac{n-i+\frac{5}{8}}{n+\frac{1}{4}}\right)^{0,14}\right}</tex>.
 +
 +
== Решение «табличной проблемы» ==
 +
 +
Была выведена полезная аппрокисмация, позволяющая применить критерий Шапиро-Уилка без помощи таблиц.
 +
Для <tex>\alpha=0,05</tex> предлагается статистика <br />
 +
::<tex>W_1=\left(1-\frac{0,6695}{n^{0,6518}}\right)\frac{s^2}{B}</tex>, <br />
 +
где <br />
 +
::<tex>B=\left{\sum_{j=1}^m a_j(x_{n-j}-x_j)\right}^2; \; m=\left[\frac{n}{2}\right]; \; a_0=\frac{0,899}{n-2,4^{0,4162}}-0,02; \; a_j=a_0\left[z+\frac{1483}{(3-z)^{10,845}}+\frac{71,610^{-10}}{(1,1-z)^{8,62}}\right]; \; z=\frac{n-2j+1}{n-0,5}.</tex> <br />
 +
Если <tex>W_1<1</tex>, то нулевая гипотеза нормальности распределения случайных величин отклоняется.
 +
Существует модификация критерия Шапиро-Уилка для случаев группированных данных (что существенно при наличии совпадающих наблюдений).
== См. также ==
== См. также ==
 +
*[[Проверка статистических гипотез]]
 +
*[[Критерий асимметрии и эксцесса]]
 +
*[[Критерий хи-квадрат]]
 +
== Ссылки ==
== Ссылки ==
 +
 +
 +
== Литература ==
== Литература ==
 +
 +
# ''Кобзарь А. И.'' Прикладная математическая статистика. — М.:&nbsp;Физматлит, 2006. — 238&nbsp;с.
 +
{{UnderConstruction|[[Участник:Дорофеев Н.Ю.|Дорофеев Н.Ю.]] 09:58, 12 ноября 2008 (MSK)}}
{{UnderConstruction|[[Участник:Дорофеев Н.Ю.|Дорофеев Н.Ю.]] 09:58, 12 ноября 2008 (MSK)}}
[[Категория:Прикладная статистика]]
[[Категория:Прикладная статистика]]

Версия 12:52, 13 ноября 2008

Содержание

Критерий Шапиро-Уилка используется для проверки гипотезы H_0: «случайная величина X распределена нормально» и является одним наиболее эффективных критериев проверки нормальности. Критери, проверяющие нормальность выборки, являются частным случаем критериев согласия. Если выборка нормальна, можно далее применять мощные параметричексие критерии, например, критерий Фишера.

Описание критерия

Критерий Шапиро-Уилка основан на оптимальной линейной несмещённой оценке дисперсии к её обычной оценке методом максимального правдоподобия. Статистика критерия имеет вид:

W=\frac{1}{s^2}\left[\sum_{i=1}^k a_{n-i+1} (x_{n-i+1} -x_i)\right]^2,

где s^2=\sum_{i=1}^n (x_i -\overline{x})^2, \overline{x}=\frac{1}{n}\sum_{i=1}^n x_i.

Числитель является квадратом оценки среднеквадратического отклонения Ллойда.

Критерии значимости статистики W(\alpha) также находятся таблично.

Если W<W(\alpha), то нулевая статистика о нормальности распределения отклоняется на уровне значимости \alpha. Приближённая вероятность получения эмпирического значения W при H_0 вычисляется по формуле

z=\gamma+\eta \ln \left(\frac{W-\epsilon}{1-W}\right),

где \gamma,\; \eta,\; \epsilon — табличные коэффициенты.

Критерий Шапиро-Уилка является очень мощным критерием для проверки нормальности, но, к сожалению, имеет ограниченную применимость. При больших значениях n \;(n>100) таблицы коэффициентов a_{n-i+1} становятся неудобными. Поэтому была предложена модификация критерия Шапиро-Уилка, о которой рассказано ниже.

Критерий Шапиро-Франчиа

Введённая статистика имеет вид

W'=\frac{1}{s^2}\left[\sum_{i=1}^k c_{n-i+1} (x_{n-i+1} -x_i)\right]^2,

где c_{n-i+1}=\frac{m_{n-i+1}}{\left(\sum_{i=1}^n m_{i,n}^2\right)^{\frac{1}{2}} и m_{i,n} — математическое ожидание i-й порядковой статистики стандартного нормального распределения. Аппроксимация m_i=\Phi^{-1}\left(\frac{i-\frac{3}{8}}{n+\frac{1}{4}}\right)=u_p, где p=\frac{i-\frac{3}{8}}{n+\frac{1}{4}} не искажает существенно критерий W'.

Используя аппрокисмацию для квантили стандартного нормального распределения, можно записать

u_p=4,91\left[p^{0,14}-(1-p)^{0,14}\right],

и для p=\frac{i-\frac{3}{8}}{n+\frac{1}{4}} имеем m_i=4,91\left{\left(\frac{i-\frac{3}{8}}{n+\frac{1}{4}}\right)^{0,14}-\left(\frac{n-i+\frac{5}{8}}{n+\frac{1}{4}}\right)^{0,14}\right}.

Решение «табличной проблемы»

Была выведена полезная аппрокисмация, позволяющая применить критерий Шапиро-Уилка без помощи таблиц. Для \alpha=0,05 предлагается статистика

W_1=\left(1-\frac{0,6695}{n^{0,6518}}\right)\frac{s^2}{B},

где

B=\left{\sum_{j=1}^m a_j(x_{n-j}-x_j)\right}^2; \; m=\left[\frac{n}{2}\right]; \; a_0=\frac{0,899}{n-2,4^{0,4162}}-0,02; \; a_j=a_0\left[z+\frac{1483}{(3-z)^{10,845}}+\frac{71,610^{-10}}{(1,1-z)^{8,62}}\right]; \; z=\frac{n-2j+1}{n-0,5}.

Если W_1<1, то нулевая гипотеза нормальности распределения случайных величин отклоняется. Существует модификация критерия Шапиро-Уилка для случаев группированных данных (что существенно при наличии совпадающих наблюдений).

См. также

Ссылки

Литература

  1. Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006. — 238 с.


Статья в настоящий момент дорабатывается.
Дорофеев Н.Ю. 09:58, 12 ноября 2008 (MSK)
Личные инструменты