Критерий Шапиро-Уилка

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
м (Описание критерия)
 
(2 промежуточные версии не показаны)
Строка 1: Строка 1:
{{TOCright}}
{{TOCright}}
-
'''Критерий Шапиро-Уилка''' используется для проверки [[нулевая гипотеза|гипотезы]] <tex>H_0</tex>: «случайная величина <tex>X</tex> распределена нормально» и является одним наиболее эффективных критериев проверки нормальности. Критери, проверяющие нормальность [[выборка|выборки]], являются частным случаем [[Проверка статистических гипотез#Критерии согласия|критериев согласия]]. Если выборка нормальна, можно далее применять мощные параметричексие критерии, например, [[критерий Фишера]].
+
'''Критерий Шапиро-Уилка''' используется для проверки [[нулевая гипотеза|гипотезы]] <tex>H_0</tex>: «случайная величина <tex>X</tex> распределена нормально» и является одним наиболее эффективных критериев проверки нормальности. Критерии, проверяющие нормальность [[выборка|выборки]], являются частным случаем [[Проверка статистических гипотез#Критерии согласия|критериев согласия]]. Если выборка нормальна, можно далее применять мощные параметрические критерии, например, [[критерий Фишера]].
== Описание критерия ==
== Описание критерия ==
Критерий Шапиро-Уилка основан на оптимальной линейной [[несмещённая оценка|несмещённой оценке]] дисперсии к её обычной оценке методом максимального правдоподобия.
Критерий Шапиро-Уилка основан на оптимальной линейной [[несмещённая оценка|несмещённой оценке]] дисперсии к её обычной оценке методом максимального правдоподобия.
Статистика критерия имеет вид: <br />
Статистика критерия имеет вид: <br />
-
::<tex>W=\frac{1}{s^2}\left[\sum_{i=1}^k a_{n-i+1} (x_{n-i+1} -x_i)\right]^2</tex>, <br />
+
::<tex>W=\frac{1}{s^2}\left[\sum_{i=1}^n a_{n-i+1} (x_{n-i+1} -x_i)\right]^2,</tex> <br />
-
где <tex>s^2=\sum_{i=1}^n (x_i -\overline{x})^2, \overline{x}=\frac{1}{n}\sum_{i=1}^n x_i</tex>.
+
где <tex>s^2=\sum_{i=1}^n (x_i -\overline{x})^2, \overline{x}=\frac{1}{n}\sum_{i=1}^n x_i.</tex>
Числитель является квадратом оценки среднеквадратического отклонения Ллойда.
Числитель является квадратом оценки среднеквадратического отклонения Ллойда.
-
Коэффициенты <tex>a_{n-i+1}</tex> берутся из таблиц. Ниже приведена таблица для небольших значений <i>n</i> и <i>i</i>
+
Коэффициенты <tex>a_{n-i+1}</tex> берутся из таблиц. Ниже приведена таблица для небольших значений <i>n</i> и <i>i</i>.
<div align="right">'''''Коэффициенты '''''<tex>a_{n-i+1}\: (\times 10^4)</tex></div>
<div align="right">'''''Коэффициенты '''''<tex>a_{n-i+1}\: (\times 10^4)</tex></div>
Строка 176: Строка 176:
|} <br />
|} <br />
-
Критерии значимости статистики <tex>W(\alpha)</tex> также находятся таблично.
+
Критические значения статистики <tex>W(\alpha)</tex> также находятся таблично.
-
Если <tex>W<W(\alpha)</tex>, то нулевая гипотеза о нормальности распределения отклоняется при уровне значимости <tex>\alpha</tex>.
+
Если <tex>W<W(\alpha)</tex>, то нулевая гипотеза о нормальности распределения отклоняется при уровне значимости <tex>\alpha.</tex>
Приближённая вероятность получения эмпирического значения <tex>W</tex> при <tex>H_0</tex> вычисляется по формуле <br />
Приближённая вероятность получения эмпирического значения <tex>W</tex> при <tex>H_0</tex> вычисляется по формуле <br />
-
::<tex>z=\gamma+\eta \ln \left(\frac{W-\epsilon}{1-W}\right)</tex>, <br />
+
::<tex>z=\gamma+\eta \ln \left(\frac{W-\epsilon}{1-W}\right),</tex> <br />
где <tex>\gamma,\; \eta,\; \epsilon</tex> — табличные коэффициенты.
где <tex>\gamma,\; \eta,\; \epsilon</tex> — табличные коэффициенты.
Строка 190: Строка 190:
Введённая статистика имеет вид <br />
Введённая статистика имеет вид <br />
-
::<tex>W'=\frac{1}{s^2}\left[\sum_{i=1}^k c_{n-i+1} (x_{n-i+1} -x_i)\right]^2</tex>, <br />
+
::<tex>W'=\frac{1}{s^2}\left[\sum_{i=1}^k c_{n-i+1} (x_{n-i+1} -x_i)\right]^2,</tex> <br />
где <tex>c_{n-i+1}=\frac{m_{n-i+1}}{\left(\sum_{i=1}^n m_{i,n}^2\right)^{\frac{1}{2}}</tex> и <tex>m_{i,n}</tex> — математическое ожидание <i>i</i>-й порядковой статистики стандартного нормального распределения.
где <tex>c_{n-i+1}=\frac{m_{n-i+1}}{\left(\sum_{i=1}^n m_{i,n}^2\right)^{\frac{1}{2}}</tex> и <tex>m_{i,n}</tex> — математическое ожидание <i>i</i>-й порядковой статистики стандартного нормального распределения.
-
Аппроксимация <tex>m_i=\Phi^{-1}\left(\frac{i-\frac{3}{8}}{n+\frac{1}{4}}\right)=u_p</tex>, где <tex>p=\frac{i-\frac{3}{8}}{n+\frac{1}{4}}</tex> не искажает существенно критерий <tex>W'</tex>.
+
Аппроксимация <tex>m_i=\Phi^{-1}\left(\frac{i-\frac{3}{8}}{n+\frac{1}{4}}\right)=u_p,</tex> где <tex>p=\frac{i-\frac{3}{8}}{n+\frac{1}{4}}</tex> не искажает существенно критерий <tex>W'.</tex>
Используя аппрокисмацию для [[Квантиль|квантили]] стандартного нормального распределения, можно записать <br />
Используя аппрокисмацию для [[Квантиль|квантили]] стандартного нормального распределения, можно записать <br />
-
::<tex>u_p=4,91\left[p^{0,14}-(1-p)^{0,14}\right]</tex>, <br />
+
::<tex>u_p=4,91\left[p^{0,14}-(1-p)^{0,14}\right],</tex> <br />
-
и для <tex>p=\frac{i-\frac{3}{8}}{n+\frac{1}{4}}</tex> имеем <tex>m_i=4,91\left{\left(\frac{i-\frac{3}{8}}{n+\frac{1}{4}}\right)^{0,14}-\left(\frac{n-i+\frac{5}{8}}{n+\frac{1}{4}}\right)^{0,14}\right}</tex>.
+
и для <tex>p=\frac{i-\frac{3}{8}}{n+\frac{1}{4}}</tex> имеем: <tex>m_i=4,91\left{\left(\frac{i-\frac{3}{8}}{n+\frac{1}{4}}\right)^{0,14}-\left(\frac{n-i+\frac{5}{8}}{n+\frac{1}{4}}\right)^{0,14}\right}.</tex>
== Решение «табличной проблемы» ==
== Решение «табличной проблемы» ==
Строка 202: Строка 202:
Была выведена полезная аппрокисмация, позволяющая применить критерий Шапиро-Уилка без помощи таблиц.
Была выведена полезная аппрокисмация, позволяющая применить критерий Шапиро-Уилка без помощи таблиц.
Для <tex>\alpha=0,05</tex> предлагается статистика <br />
Для <tex>\alpha=0,05</tex> предлагается статистика <br />
-
::<tex>W_1=\left(1-\frac{0,6695}{n^{0,6518}}\right)\frac{s^2}{B}</tex>, <br />
+
::<tex>W_1=\left(1-\frac{0,6695}{n^{0,6518}}\right)\frac{s^2}{B},</tex> <br />
где <br />
где <br />
::<tex>B=\left{\sum_{j=1}^m a_j(x_{n-j}-x_j)\right}^2; \; m=\left[\frac{n}{2}\right]; \; a_0=\frac{0,899}{\left(n-2,4\right)^{0,4162}}-0,02; \; a_j=a_0\left[z+\frac{1483}{(3-z)^{10,845}}+\frac{71,6\times10^{-10}}{(1,1-z)^{8,26}}\right]; \; z=\frac{n-2j+1}{n-0,5}.</tex> <br />
::<tex>B=\left{\sum_{j=1}^m a_j(x_{n-j}-x_j)\right}^2; \; m=\left[\frac{n}{2}\right]; \; a_0=\frac{0,899}{\left(n-2,4\right)^{0,4162}}-0,02; \; a_j=a_0\left[z+\frac{1483}{(3-z)^{10,845}}+\frac{71,6\times10^{-10}}{(1,1-z)^{8,26}}\right]; \; z=\frac{n-2j+1}{n-0,5}.</tex> <br />
-
Если <tex>W_1<1</tex>, то нулевая гипотеза нормальности распределения случайных величин отклоняется.
+
Если <tex>W_1<1,</tex> то нулевая гипотеза нормальности распределения случайных величин отклоняется.
Существует модификация критерия Шапиро-Уилка для случаев группированных данных (что существенно при наличии совпадающих наблюдений).
Существует модификация критерия Шапиро-Уилка для случаев группированных данных (что существенно при наличии совпадающих наблюдений).
Строка 223: Строка 223:
[[Категория:Прикладная статистика]]
[[Категория:Прикладная статистика]]
 +
[[Категория:Статистические тесты]]

Текущая версия

Содержание

Критерий Шапиро-Уилка используется для проверки гипотезы H_0: «случайная величина X распределена нормально» и является одним наиболее эффективных критериев проверки нормальности. Критерии, проверяющие нормальность выборки, являются частным случаем критериев согласия. Если выборка нормальна, можно далее применять мощные параметрические критерии, например, критерий Фишера.

Описание критерия

Критерий Шапиро-Уилка основан на оптимальной линейной несмещённой оценке дисперсии к её обычной оценке методом максимального правдоподобия. Статистика критерия имеет вид:

W=\frac{1}{s^2}\left[\sum_{i=1}^n a_{n-i+1} (x_{n-i+1} -x_i)\right]^2,

где s^2=\sum_{i=1}^n (x_i -\overline{x})^2, \overline{x}=\frac{1}{n}\sum_{i=1}^n x_i.

Числитель является квадратом оценки среднеквадратического отклонения Ллойда.

Коэффициенты a_{n-i+1} берутся из таблиц. Ниже приведена таблица для небольших значений n и i.

Коэффициенты a_{n-i+1}\: (\times 10^4)
n i
1 2 3 4 5 6 7 8 9 10
3 7071
4 6872 1677
5 6646 2413
6 6431 2806 0875
7 6233 3031 1401
8 6052 3164 1743 0561
9 5888 3244 1976 0947
10 5739 3291 2141 1224 0399
11 5601 3315 2260 1429 0695
12 5475 3325 2347 1586 0922 0303
13 5359 3325 2412 1707 1099 0539
14 5251 3318 2460 1802 1240 0727 0240
15 5150 3306 2495 1878 1353 0880 0433
16 5056 3290 2521 1939 1447 1005 0593 0196
17 4968 3237 2540 1988 1524 1109 0725 0359
18 4886 3253 2553 2027 1587 1197 0837 0496 0173
19 4808 3232 2561 2059 1641 1271 0932 0612 0303
20 4734 3211 2565 2085 1686 1334 1013 0711 0422 0140
21 4634 3185 2578 2119 1736 1399 1092 0804 0530 0263

Критические значения статистики W(\alpha) также находятся таблично.

Если W<W(\alpha), то нулевая гипотеза о нормальности распределения отклоняется при уровне значимости \alpha. Приближённая вероятность получения эмпирического значения W при H_0 вычисляется по формуле

z=\gamma+\eta \ln \left(\frac{W-\epsilon}{1-W}\right),

где \gamma,\; \eta,\; \epsilon — табличные коэффициенты.

Критерий Шапиро-Уилка является очень мощным критерием для проверки нормальности, но, к сожалению, имеет ограниченную применимость. При больших значениях n \;(n>100) таблицы коэффициентов a_{n-i+1} становятся неудобными. Поэтому была предложена модификация критерия Шапиро-Уилка, о которой рассказано ниже.

Критерий Шапиро-Франчиа

Введённая статистика имеет вид

W'=\frac{1}{s^2}\left[\sum_{i=1}^k c_{n-i+1} (x_{n-i+1} -x_i)\right]^2,

где c_{n-i+1}=\frac{m_{n-i+1}}{\left(\sum_{i=1}^n m_{i,n}^2\right)^{\frac{1}{2}} и m_{i,n} — математическое ожидание i-й порядковой статистики стандартного нормального распределения. Аппроксимация m_i=\Phi^{-1}\left(\frac{i-\frac{3}{8}}{n+\frac{1}{4}}\right)=u_p, где p=\frac{i-\frac{3}{8}}{n+\frac{1}{4}} не искажает существенно критерий W'.

Используя аппрокисмацию для квантили стандартного нормального распределения, можно записать

u_p=4,91\left[p^{0,14}-(1-p)^{0,14}\right],

и для p=\frac{i-\frac{3}{8}}{n+\frac{1}{4}} имеем: m_i=4,91\left{\left(\frac{i-\frac{3}{8}}{n+\frac{1}{4}}\right)^{0,14}-\left(\frac{n-i+\frac{5}{8}}{n+\frac{1}{4}}\right)^{0,14}\right}.

Решение «табличной проблемы»

Была выведена полезная аппрокисмация, позволяющая применить критерий Шапиро-Уилка без помощи таблиц. Для \alpha=0,05 предлагается статистика

W_1=\left(1-\frac{0,6695}{n^{0,6518}}\right)\frac{s^2}{B},

где

B=\left{\sum_{j=1}^m a_j(x_{n-j}-x_j)\right}^2; \; m=\left[\frac{n}{2}\right]; \; a_0=\frac{0,899}{\left(n-2,4\right)^{0,4162}}-0,02; \; a_j=a_0\left[z+\frac{1483}{(3-z)^{10,845}}+\frac{71,6\times10^{-10}}{(1,1-z)^{8,26}}\right]; \; z=\frac{n-2j+1}{n-0,5}.

Если W_1<1, то нулевая гипотеза нормальности распределения случайных величин отклоняется. Существует модификация критерия Шапиро-Уилка для случаев группированных данных (что существенно при наличии совпадающих наблюдений).

См. также

Ссылки

Wikipedia: Statistical Tests

Литература

  1. Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006. — 238 с.
  2. Shapiro S. S., Wilk M. B. An analysis of variance test for normality. — Biometrika, 1965, 52, №3 — p. 591-611. [1]
Личные инструменты