Критерий Шапиро-Уилка
Материал из MachineLearning.
м (→Описание критерия) |
|||
(5 промежуточных версий не показаны.) | |||
Строка 1: | Строка 1: | ||
{{TOCright}} | {{TOCright}} | ||
- | '''Критерий Шапиро-Уилка''' используется для проверки [[нулевая гипотеза|гипотезы]] <tex>H_0</tex>: «случайная величина <tex>X</tex> распределена нормально» и является одним наиболее эффективных критериев проверки нормальности. | + | '''Критерий Шапиро-Уилка''' используется для проверки [[нулевая гипотеза|гипотезы]] <tex>H_0</tex>: «случайная величина <tex>X</tex> распределена нормально» и является одним наиболее эффективных критериев проверки нормальности. Критерии, проверяющие нормальность [[выборка|выборки]], являются частным случаем [[Проверка статистических гипотез#Критерии согласия|критериев согласия]]. Если выборка нормальна, можно далее применять мощные параметрические критерии, например, [[критерий Фишера]]. |
== Описание критерия == | == Описание критерия == | ||
Критерий Шапиро-Уилка основан на оптимальной линейной [[несмещённая оценка|несмещённой оценке]] дисперсии к её обычной оценке методом максимального правдоподобия. | Критерий Шапиро-Уилка основан на оптимальной линейной [[несмещённая оценка|несмещённой оценке]] дисперсии к её обычной оценке методом максимального правдоподобия. | ||
Статистика критерия имеет вид: <br /> | Статистика критерия имеет вид: <br /> | ||
- | ::<tex>W=\frac{1}{s^2}\left[\sum_{i=1}^ | + | ::<tex>W=\frac{1}{s^2}\left[\sum_{i=1}^n a_{n-i+1} (x_{n-i+1} -x_i)\right]^2,</tex> <br /> |
- | где <tex>s^2=\sum_{i=1}^n (x_i -\overline{x})^2, \overline{x}=\frac{1}{n}\sum_{i=1}^n x_i</tex> | + | где <tex>s^2=\sum_{i=1}^n (x_i -\overline{x})^2, \overline{x}=\frac{1}{n}\sum_{i=1}^n x_i.</tex> |
Числитель является квадратом оценки среднеквадратического отклонения Ллойда. | Числитель является квадратом оценки среднеквадратического отклонения Ллойда. | ||
- | Коэффициенты <tex>a_{n-i+1}</tex> берутся из таблиц. Ниже приведена таблица для небольших значений <i>n</i> и <i>i</i> | + | Коэффициенты <tex>a_{n-i+1}</tex> берутся из таблиц. Ниже приведена таблица для небольших значений <i>n</i> и <i>i</i>. |
<div align="right">'''''Коэффициенты '''''<tex>a_{n-i+1}\: (\times 10^4)</tex></div> | <div align="right">'''''Коэффициенты '''''<tex>a_{n-i+1}\: (\times 10^4)</tex></div> | ||
Строка 176: | Строка 176: | ||
|} <br /> | |} <br /> | ||
- | + | Критические значения статистики <tex>W(\alpha)</tex> также находятся таблично. | |
- | Если <tex>W<W(\alpha)</tex>, то нулевая | + | Если <tex>W<W(\alpha)</tex>, то нулевая гипотеза о нормальности распределения отклоняется при уровне значимости <tex>\alpha.</tex> |
Приближённая вероятность получения эмпирического значения <tex>W</tex> при <tex>H_0</tex> вычисляется по формуле <br /> | Приближённая вероятность получения эмпирического значения <tex>W</tex> при <tex>H_0</tex> вычисляется по формуле <br /> | ||
- | ::<tex>z=\gamma+\eta \ln \left(\frac{W-\epsilon}{1-W}\right)</tex> | + | ::<tex>z=\gamma+\eta \ln \left(\frac{W-\epsilon}{1-W}\right),</tex> <br /> |
где <tex>\gamma,\; \eta,\; \epsilon</tex> — табличные коэффициенты. | где <tex>\gamma,\; \eta,\; \epsilon</tex> — табличные коэффициенты. | ||
Строка 190: | Строка 190: | ||
Введённая статистика имеет вид <br /> | Введённая статистика имеет вид <br /> | ||
- | ::<tex>W'=\frac{1}{s^2}\left[\sum_{i=1}^k c_{n-i+1} (x_{n-i+1} -x_i)\right]^2</tex> | + | ::<tex>W'=\frac{1}{s^2}\left[\sum_{i=1}^k c_{n-i+1} (x_{n-i+1} -x_i)\right]^2,</tex> <br /> |
где <tex>c_{n-i+1}=\frac{m_{n-i+1}}{\left(\sum_{i=1}^n m_{i,n}^2\right)^{\frac{1}{2}}</tex> и <tex>m_{i,n}</tex> — математическое ожидание <i>i</i>-й порядковой статистики стандартного нормального распределения. | где <tex>c_{n-i+1}=\frac{m_{n-i+1}}{\left(\sum_{i=1}^n m_{i,n}^2\right)^{\frac{1}{2}}</tex> и <tex>m_{i,n}</tex> — математическое ожидание <i>i</i>-й порядковой статистики стандартного нормального распределения. | ||
- | Аппроксимация <tex>m_i=\Phi^{-1}\left(\frac{i-\frac{3}{8}}{n+\frac{1}{4}}\right)=u_p</tex> | + | Аппроксимация <tex>m_i=\Phi^{-1}\left(\frac{i-\frac{3}{8}}{n+\frac{1}{4}}\right)=u_p,</tex> где <tex>p=\frac{i-\frac{3}{8}}{n+\frac{1}{4}}</tex> не искажает существенно критерий <tex>W'.</tex> |
Используя аппрокисмацию для [[Квантиль|квантили]] стандартного нормального распределения, можно записать <br /> | Используя аппрокисмацию для [[Квантиль|квантили]] стандартного нормального распределения, можно записать <br /> | ||
- | ::<tex>u_p=4,91\left[p^{0,14}-(1-p)^{0,14}\right]</tex> | + | ::<tex>u_p=4,91\left[p^{0,14}-(1-p)^{0,14}\right],</tex> <br /> |
- | и для <tex>p=\frac{i-\frac{3}{8}}{n+\frac{1}{4}}</tex> имеем <tex>m_i=4,91\left{\left(\frac{i-\frac{3}{8}}{n+\frac{1}{4}}\right)^{0,14}-\left(\frac{n-i+\frac{5}{8}}{n+\frac{1}{4}}\right)^{0,14}\right}</tex> | + | и для <tex>p=\frac{i-\frac{3}{8}}{n+\frac{1}{4}}</tex> имеем: <tex>m_i=4,91\left{\left(\frac{i-\frac{3}{8}}{n+\frac{1}{4}}\right)^{0,14}-\left(\frac{n-i+\frac{5}{8}}{n+\frac{1}{4}}\right)^{0,14}\right}.</tex> |
== Решение «табличной проблемы» == | == Решение «табличной проблемы» == | ||
Строка 202: | Строка 202: | ||
Была выведена полезная аппрокисмация, позволяющая применить критерий Шапиро-Уилка без помощи таблиц. | Была выведена полезная аппрокисмация, позволяющая применить критерий Шапиро-Уилка без помощи таблиц. | ||
Для <tex>\alpha=0,05</tex> предлагается статистика <br /> | Для <tex>\alpha=0,05</tex> предлагается статистика <br /> | ||
- | ::<tex>W_1=\left(1-\frac{0,6695}{n^{0,6518}}\right)\frac{s^2}{B}</tex> | + | ::<tex>W_1=\left(1-\frac{0,6695}{n^{0,6518}}\right)\frac{s^2}{B},</tex> <br /> |
где <br /> | где <br /> | ||
- | ::<tex>B=\left{\sum_{j=1}^m a_j(x_{n-j}-x_j)\right}^2; \; m=\left[\frac{n}{2}\right]; \; a_0=\frac{0,899}{n-2,4^{0,4162}}-0,02; \; a_j=a_0\left[z+\frac{1483}{(3-z)^{10,845}}+\frac{71, | + | ::<tex>B=\left{\sum_{j=1}^m a_j(x_{n-j}-x_j)\right}^2; \; m=\left[\frac{n}{2}\right]; \; a_0=\frac{0,899}{\left(n-2,4\right)^{0,4162}}-0,02; \; a_j=a_0\left[z+\frac{1483}{(3-z)^{10,845}}+\frac{71,6\times10^{-10}}{(1,1-z)^{8,26}}\right]; \; z=\frac{n-2j+1}{n-0,5}.</tex> <br /> |
- | Если <tex>W_1<1</tex> | + | Если <tex>W_1<1,</tex> то нулевая гипотеза нормальности распределения случайных величин отклоняется. |
Существует модификация критерия Шапиро-Уилка для случаев группированных данных (что существенно при наличии совпадающих наблюдений). | Существует модификация критерия Шапиро-Уилка для случаев группированных данных (что существенно при наличии совпадающих наблюдений). | ||
Строка 223: | Строка 223: | ||
[[Категория:Прикладная статистика]] | [[Категория:Прикладная статистика]] | ||
+ | [[Категория:Статистические тесты]] |
Текущая версия
|
Критерий Шапиро-Уилка используется для проверки гипотезы : «случайная величина распределена нормально» и является одним наиболее эффективных критериев проверки нормальности. Критерии, проверяющие нормальность выборки, являются частным случаем критериев согласия. Если выборка нормальна, можно далее применять мощные параметрические критерии, например, критерий Фишера.
Описание критерия
Критерий Шапиро-Уилка основан на оптимальной линейной несмещённой оценке дисперсии к её обычной оценке методом максимального правдоподобия.
Статистика критерия имеет вид:
где
Числитель является квадратом оценки среднеквадратического отклонения Ллойда.
Коэффициенты берутся из таблиц. Ниже приведена таблица для небольших значений n и i.
n | i | |||||||||
---|---|---|---|---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | |
3 | 7071 | |||||||||
4 | 6872 | 1677 | ||||||||
5 | 6646 | 2413 | ||||||||
6 | 6431 | 2806 | 0875 | |||||||
7 | 6233 | 3031 | 1401 | |||||||
8 | 6052 | 3164 | 1743 | 0561 | ||||||
9 | 5888 | 3244 | 1976 | 0947 | ||||||
10 | 5739 | 3291 | 2141 | 1224 | 0399 | |||||
11 | 5601 | 3315 | 2260 | 1429 | 0695 | |||||
12 | 5475 | 3325 | 2347 | 1586 | 0922 | 0303 | ||||
13 | 5359 | 3325 | 2412 | 1707 | 1099 | 0539 | ||||
14 | 5251 | 3318 | 2460 | 1802 | 1240 | 0727 | 0240 | |||
15 | 5150 | 3306 | 2495 | 1878 | 1353 | 0880 | 0433 | |||
16 | 5056 | 3290 | 2521 | 1939 | 1447 | 1005 | 0593 | 0196 | ||
17 | 4968 | 3237 | 2540 | 1988 | 1524 | 1109 | 0725 | 0359 | ||
18 | 4886 | 3253 | 2553 | 2027 | 1587 | 1197 | 0837 | 0496 | 0173 | |
19 | 4808 | 3232 | 2561 | 2059 | 1641 | 1271 | 0932 | 0612 | 0303 | |
20 | 4734 | 3211 | 2565 | 2085 | 1686 | 1334 | 1013 | 0711 | 0422 | 0140 |
21 | 4634 | 3185 | 2578 | 2119 | 1736 | 1399 | 1092 | 0804 | 0530 | 0263 |
Критические значения статистики также находятся таблично.
Если , то нулевая гипотеза о нормальности распределения отклоняется при уровне значимости
Приближённая вероятность получения эмпирического значения при вычисляется по формуле
где — табличные коэффициенты.
Критерий Шапиро-Уилка является очень мощным критерием для проверки нормальности, но, к сожалению, имеет ограниченную применимость. При больших значениях таблицы коэффициентов становятся неудобными. Поэтому была предложена модификация критерия Шапиро-Уилка, о которой рассказано ниже.
Критерий Шапиро-Франчиа
Введённая статистика имеет вид
где и — математическое ожидание i-й порядковой статистики стандартного нормального распределения. Аппроксимация где не искажает существенно критерий
Используя аппрокисмацию для квантили стандартного нормального распределения, можно записать
и для имеем:
Решение «табличной проблемы»
Была выведена полезная аппрокисмация, позволяющая применить критерий Шапиро-Уилка без помощи таблиц.
Для предлагается статистика
где
Если то нулевая гипотеза нормальности распределения случайных величин отклоняется. Существует модификация критерия Шапиро-Уилка для случаев группированных данных (что существенно при наличии совпадающих наблюдений).
См. также
Ссылки
Литература
- Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006. — 238 с.
- Shapiro S. S., Wilk M. B. An analysis of variance test for normality. — Biometrika, 1965, 52, №3 — p. 591-611. [1]