Критерий Шапиро-Уилка
Материал из MachineLearning.
м |
м (→Описание критерия) |
||
(14 промежуточных версий не показаны.) | |||
Строка 1: | Строка 1: | ||
{{TOCright}} | {{TOCright}} | ||
- | '''Критерий Шапиро-Уилка''' используется для проверки гипотезы | + | '''Критерий Шапиро-Уилка''' используется для проверки [[нулевая гипотеза|гипотезы]] <tex>H_0</tex>: «случайная величина <tex>X</tex> распределена нормально» и является одним наиболее эффективных критериев проверки нормальности. Критерии, проверяющие нормальность [[выборка|выборки]], являются частным случаем [[Проверка статистических гипотез#Критерии согласия|критериев согласия]]. Если выборка нормальна, можно далее применять мощные параметрические критерии, например, [[критерий Фишера]]. |
== Описание критерия == | == Описание критерия == | ||
Критерий Шапиро-Уилка основан на оптимальной линейной [[несмещённая оценка|несмещённой оценке]] дисперсии к её обычной оценке методом максимального правдоподобия. | Критерий Шапиро-Уилка основан на оптимальной линейной [[несмещённая оценка|несмещённой оценке]] дисперсии к её обычной оценке методом максимального правдоподобия. | ||
Статистика критерия имеет вид: <br /> | Статистика критерия имеет вид: <br /> | ||
- | ::<tex>W=\frac{1}{s^2}[\sum_{i=1}^ | + | ::<tex>W=\frac{1}{s^2}\left[\sum_{i=1}^n a_{n-i+1} (x_{n-i+1} -x_i)\right]^2,</tex> <br /> |
- | где <tex>s^2=\sum_{i=1}^n (x_i -\overline{x})^2, \overline{x}=\frac{1}{n}\sum_{i=1}^n x_i</tex> | + | где <tex>s^2=\sum_{i=1}^n (x_i -\overline{x})^2, \overline{x}=\frac{1}{n}\sum_{i=1}^n x_i.</tex> |
Числитель является квадратом оценки среднеквадратического отклонения Ллойда. | Числитель является квадратом оценки среднеквадратического отклонения Ллойда. | ||
- | == Критерий Шапиро- | + | Коэффициенты <tex>a_{n-i+1}</tex> берутся из таблиц. Ниже приведена таблица для небольших значений <i>n</i> и <i>i</i>. |
+ | |||
+ | <div align="right">'''''Коэффициенты '''''<tex>a_{n-i+1}\: (\times 10^4)</tex></div> | ||
+ | {| class="wide" | ||
+ | |- | ||
+ | !rowspan=2 |<i>n</i> | ||
+ | !colspan=10 |<i>i</i> | ||
+ | |- | ||
+ | !1 | ||
+ | !2 | ||
+ | !3 | ||
+ | !4 | ||
+ | !5 | ||
+ | !6 | ||
+ | !7 | ||
+ | !8 | ||
+ | !9 | ||
+ | !10 | ||
+ | |- | ||
+ | !3 | ||
+ | |7071 | ||
+ | |- | ||
+ | !4 | ||
+ | |6872 | ||
+ | |1677 | ||
+ | |- | ||
+ | !5 | ||
+ | |6646 | ||
+ | |2413 | ||
+ | |- | ||
+ | !6 | ||
+ | |6431 | ||
+ | |2806 | ||
+ | |0875 | ||
+ | |- | ||
+ | !7 | ||
+ | |6233 | ||
+ | |3031 | ||
+ | |1401 | ||
+ | |- | ||
+ | !8 | ||
+ | |6052 | ||
+ | |3164 | ||
+ | |1743 | ||
+ | |0561 | ||
+ | |- | ||
+ | !9 | ||
+ | |5888 | ||
+ | |3244 | ||
+ | |1976 | ||
+ | |0947 | ||
+ | |- | ||
+ | !10 | ||
+ | |5739 | ||
+ | |3291 | ||
+ | |2141 | ||
+ | |1224 | ||
+ | |0399 | ||
+ | |- | ||
+ | !11 | ||
+ | |5601 | ||
+ | |3315 | ||
+ | |2260 | ||
+ | |1429 | ||
+ | |0695 | ||
+ | |- | ||
+ | !12 | ||
+ | |5475 | ||
+ | |3325 | ||
+ | |2347 | ||
+ | |1586 | ||
+ | |0922 | ||
+ | |0303 | ||
+ | |- | ||
+ | !13 | ||
+ | |5359 | ||
+ | |3325 | ||
+ | |2412 | ||
+ | |1707 | ||
+ | |1099 | ||
+ | |0539 | ||
+ | |- | ||
+ | !14 | ||
+ | |5251 | ||
+ | |3318 | ||
+ | |2460 | ||
+ | |1802 | ||
+ | |1240 | ||
+ | |0727 | ||
+ | |0240 | ||
+ | |- | ||
+ | !15 | ||
+ | |5150 | ||
+ | |3306 | ||
+ | |2495 | ||
+ | |1878 | ||
+ | |1353 | ||
+ | |0880 | ||
+ | |0433 | ||
+ | |- | ||
+ | !16 | ||
+ | |5056 | ||
+ | |3290 | ||
+ | |2521 | ||
+ | |1939 | ||
+ | |1447 | ||
+ | |1005 | ||
+ | |0593 | ||
+ | |0196 | ||
+ | |- | ||
+ | !17 | ||
+ | |4968 | ||
+ | |3237 | ||
+ | |2540 | ||
+ | |1988 | ||
+ | |1524 | ||
+ | |1109 | ||
+ | |0725 | ||
+ | |0359 | ||
+ | |- | ||
+ | !18 | ||
+ | |4886 | ||
+ | |3253 | ||
+ | |2553 | ||
+ | |2027 | ||
+ | |1587 | ||
+ | |1197 | ||
+ | |0837 | ||
+ | |0496 | ||
+ | |0173 | ||
+ | |- | ||
+ | !19 | ||
+ | |4808 | ||
+ | |3232 | ||
+ | |2561 | ||
+ | |2059 | ||
+ | |1641 | ||
+ | |1271 | ||
+ | |0932 | ||
+ | |0612 | ||
+ | |0303 | ||
+ | |- | ||
+ | !20 | ||
+ | |4734 | ||
+ | |3211 | ||
+ | |2565 | ||
+ | |2085 | ||
+ | |1686 | ||
+ | |1334 | ||
+ | |1013 | ||
+ | |0711 | ||
+ | |0422 | ||
+ | |0140 | ||
+ | |- | ||
+ | !21 | ||
+ | |4634 | ||
+ | |3185 | ||
+ | |2578 | ||
+ | |2119 | ||
+ | |1736 | ||
+ | |1399 | ||
+ | |1092 | ||
+ | |0804 | ||
+ | |0530 | ||
+ | |0263 | ||
+ | |} <br /> | ||
+ | |||
+ | Критические значения статистики <tex>W(\alpha)</tex> также находятся таблично. | ||
+ | |||
+ | Если <tex>W<W(\alpha)</tex>, то нулевая гипотеза о нормальности распределения отклоняется при уровне значимости <tex>\alpha.</tex> | ||
+ | Приближённая вероятность получения эмпирического значения <tex>W</tex> при <tex>H_0</tex> вычисляется по формуле <br /> | ||
+ | ::<tex>z=\gamma+\eta \ln \left(\frac{W-\epsilon}{1-W}\right),</tex> <br /> | ||
+ | где <tex>\gamma,\; \eta,\; \epsilon</tex> — табличные коэффициенты. | ||
+ | |||
+ | Критерий Шапиро-Уилка является очень мощным критерием для проверки нормальности, но, к сожалению, имеет ограниченную применимость. | ||
+ | При больших значениях <tex>n \;(n>100)</tex> таблицы коэффициентов <tex>a_{n-i+1}</tex> становятся неудобными. | ||
+ | Поэтому была предложена модификация критерия Шапиро-Уилка, о которой рассказано ниже. | ||
+ | |||
+ | == Критерий Шапиро-Франчиа == | ||
+ | |||
+ | Введённая статистика имеет вид <br /> | ||
+ | ::<tex>W'=\frac{1}{s^2}\left[\sum_{i=1}^k c_{n-i+1} (x_{n-i+1} -x_i)\right]^2,</tex> <br /> | ||
+ | где <tex>c_{n-i+1}=\frac{m_{n-i+1}}{\left(\sum_{i=1}^n m_{i,n}^2\right)^{\frac{1}{2}}</tex> и <tex>m_{i,n}</tex> — математическое ожидание <i>i</i>-й порядковой статистики стандартного нормального распределения. | ||
+ | Аппроксимация <tex>m_i=\Phi^{-1}\left(\frac{i-\frac{3}{8}}{n+\frac{1}{4}}\right)=u_p,</tex> где <tex>p=\frac{i-\frac{3}{8}}{n+\frac{1}{4}}</tex> не искажает существенно критерий <tex>W'.</tex> | ||
+ | |||
+ | Используя аппрокисмацию для [[Квантиль|квантили]] стандартного нормального распределения, можно записать <br /> | ||
+ | ::<tex>u_p=4,91\left[p^{0,14}-(1-p)^{0,14}\right],</tex> <br /> | ||
+ | и для <tex>p=\frac{i-\frac{3}{8}}{n+\frac{1}{4}}</tex> имеем: <tex>m_i=4,91\left{\left(\frac{i-\frac{3}{8}}{n+\frac{1}{4}}\right)^{0,14}-\left(\frac{n-i+\frac{5}{8}}{n+\frac{1}{4}}\right)^{0,14}\right}.</tex> | ||
+ | |||
+ | == Решение «табличной проблемы» == | ||
+ | |||
+ | Была выведена полезная аппрокисмация, позволяющая применить критерий Шапиро-Уилка без помощи таблиц. | ||
+ | Для <tex>\alpha=0,05</tex> предлагается статистика <br /> | ||
+ | ::<tex>W_1=\left(1-\frac{0,6695}{n^{0,6518}}\right)\frac{s^2}{B},</tex> <br /> | ||
+ | где <br /> | ||
+ | ::<tex>B=\left{\sum_{j=1}^m a_j(x_{n-j}-x_j)\right}^2; \; m=\left[\frac{n}{2}\right]; \; a_0=\frac{0,899}{\left(n-2,4\right)^{0,4162}}-0,02; \; a_j=a_0\left[z+\frac{1483}{(3-z)^{10,845}}+\frac{71,6\times10^{-10}}{(1,1-z)^{8,26}}\right]; \; z=\frac{n-2j+1}{n-0,5}.</tex> <br /> | ||
+ | Если <tex>W_1<1,</tex> то нулевая гипотеза нормальности распределения случайных величин отклоняется. | ||
+ | Существует модификация критерия Шапиро-Уилка для случаев группированных данных (что существенно при наличии совпадающих наблюдений). | ||
+ | |||
== См. также == | == См. также == | ||
+ | *[[Проверка статистических гипотез]] | ||
+ | *[[Критерий асимметрии и эксцесса]] | ||
+ | *[[Критерий хи-квадрат]] | ||
+ | |||
== Ссылки == | == Ссылки == | ||
+ | |||
+ | [http://en.wikipedia.org/wiki/Category:Statistical_tests Wikipedia: Statistical Tests] | ||
+ | |||
== Литература == | == Литература == | ||
- | + | ||
+ | # ''Кобзарь А. И.'' Прикладная математическая статистика. — М.: Физматлит, 2006. — 238 с. | ||
+ | # ''Shapiro S. S., Wilk M. B.'' An analysis of variance test for normality. — Biometrika, 1965, 52, №3 — p. 591-611. [http://www.jstor.org/view/00063444/di992333/99p0027o/0] | ||
+ | |||
+ | [[Категория:Прикладная статистика]] | ||
+ | [[Категория:Статистические тесты]] |
Текущая версия
|
Критерий Шапиро-Уилка используется для проверки гипотезы : «случайная величина распределена нормально» и является одним наиболее эффективных критериев проверки нормальности. Критерии, проверяющие нормальность выборки, являются частным случаем критериев согласия. Если выборка нормальна, можно далее применять мощные параметрические критерии, например, критерий Фишера.
Описание критерия
Критерий Шапиро-Уилка основан на оптимальной линейной несмещённой оценке дисперсии к её обычной оценке методом максимального правдоподобия.
Статистика критерия имеет вид:
где
Числитель является квадратом оценки среднеквадратического отклонения Ллойда.
Коэффициенты берутся из таблиц. Ниже приведена таблица для небольших значений n и i.
n | i | |||||||||
---|---|---|---|---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | |
3 | 7071 | |||||||||
4 | 6872 | 1677 | ||||||||
5 | 6646 | 2413 | ||||||||
6 | 6431 | 2806 | 0875 | |||||||
7 | 6233 | 3031 | 1401 | |||||||
8 | 6052 | 3164 | 1743 | 0561 | ||||||
9 | 5888 | 3244 | 1976 | 0947 | ||||||
10 | 5739 | 3291 | 2141 | 1224 | 0399 | |||||
11 | 5601 | 3315 | 2260 | 1429 | 0695 | |||||
12 | 5475 | 3325 | 2347 | 1586 | 0922 | 0303 | ||||
13 | 5359 | 3325 | 2412 | 1707 | 1099 | 0539 | ||||
14 | 5251 | 3318 | 2460 | 1802 | 1240 | 0727 | 0240 | |||
15 | 5150 | 3306 | 2495 | 1878 | 1353 | 0880 | 0433 | |||
16 | 5056 | 3290 | 2521 | 1939 | 1447 | 1005 | 0593 | 0196 | ||
17 | 4968 | 3237 | 2540 | 1988 | 1524 | 1109 | 0725 | 0359 | ||
18 | 4886 | 3253 | 2553 | 2027 | 1587 | 1197 | 0837 | 0496 | 0173 | |
19 | 4808 | 3232 | 2561 | 2059 | 1641 | 1271 | 0932 | 0612 | 0303 | |
20 | 4734 | 3211 | 2565 | 2085 | 1686 | 1334 | 1013 | 0711 | 0422 | 0140 |
21 | 4634 | 3185 | 2578 | 2119 | 1736 | 1399 | 1092 | 0804 | 0530 | 0263 |
Критические значения статистики также находятся таблично.
Если , то нулевая гипотеза о нормальности распределения отклоняется при уровне значимости
Приближённая вероятность получения эмпирического значения при вычисляется по формуле
где — табличные коэффициенты.
Критерий Шапиро-Уилка является очень мощным критерием для проверки нормальности, но, к сожалению, имеет ограниченную применимость. При больших значениях таблицы коэффициентов становятся неудобными. Поэтому была предложена модификация критерия Шапиро-Уилка, о которой рассказано ниже.
Критерий Шапиро-Франчиа
Введённая статистика имеет вид
где и — математическое ожидание i-й порядковой статистики стандартного нормального распределения. Аппроксимация где не искажает существенно критерий
Используя аппрокисмацию для квантили стандартного нормального распределения, можно записать
и для имеем:
Решение «табличной проблемы»
Была выведена полезная аппрокисмация, позволяющая применить критерий Шапиро-Уилка без помощи таблиц.
Для предлагается статистика
где
Если то нулевая гипотеза нормальности распределения случайных величин отклоняется. Существует модификация критерия Шапиро-Уилка для случаев группированных данных (что существенно при наличии совпадающих наблюдений).
См. также
Ссылки
Литература
- Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006. — 238 с.
- Shapiro S. S., Wilk M. B. An analysis of variance test for normality. — Biometrika, 1965, 52, №3 — p. 591-611. [1]