Критерий Шапиро-Уилка

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
м
Строка 4: Строка 4:
Критерий Шапиро-Уилка основан на оптимальной линейной [[несмещённая оценка|несмещённой оценке]] дисперсии к её обычной оценке методом максимального правдоподобия.
Критерий Шапиро-Уилка основан на оптимальной линейной [[несмещённая оценка|несмещённой оценке]] дисперсии к её обычной оценке методом максимального правдоподобия.
Статистика критерия имеет вид: <br />
Статистика критерия имеет вид: <br />
-
::<tex>W=\frac{1}{s^2}[\sum_{i=1}^k a_{n-i+1} (x_{n-i+1} -x_i)]^2</tex>, <br />
+
::<tex>W=\frac{1}{s^2}\left[\sum_{i=1}^k a_{n-i+1} (x_{n-i+1} -x_i)\right]^2</tex>, <br />
где <tex>s^2=\sum_{i=1}^n (x_i -\overline{x})^2, \overline{x}=\frac{1}{n}\sum_{i=1}^n x_i</tex>.
где <tex>s^2=\sum_{i=1}^n (x_i -\overline{x})^2, \overline{x}=\frac{1}{n}\sum_{i=1}^n x_i</tex>.
Числитель является квадратом оценки среднеквадратического отклонения Ллойда.
Числитель является квадратом оценки среднеквадратического отклонения Ллойда.
-
== Критерий Шапиро-Франча ==
+
Критерии значимости статистики <tex>W(\alpha)</tex> также находятся таблично.
 +
 
 +
Если <tex>W<W(\alpha)</tex>, то нулевая статистика о нормальности распределения отклоняется на уровне значимости <tex>\alpha</tex>.
 +
Приближённая вероятность получения эмпирического значения <tex>W</tex> при <tex>H_0</tex> вычисляется по формуле <br />
 +
::<tex>z=\gamma+\theta \ln \left(\frac{W-\epsilon}{1-W}\right)</tex>, <br />
 +
где <tex>\gamma,\; \theta,\; \epsilon</tex> — табличные коэффициенты.
 +
 
 +
Критерий Шапиро-Уилка является очень мощным критерием для проверки нормальности, но, к сожалению, имеет ограниченную применимость.
 +
При больших значениях <tex>n \;(n>100)</tex> таблицы коэффициентов <tex>a_{n-i+1}</tex> становятся неудобными.
 +
Для решение этой проблемыбыла предложена модификация критерия Шапиро-Уилка, о которой рассказано ниже.
 +
 
 +
== Критерий Шапиро-Франчиа ==
 +
 
 +
Введённая статистика имеет вид <br />
 +
::<tex>W'=\frac{1}{s^2}\left[\sum_{i=1}^k c_{n-i+1} (x_{n-i+1} -x_i)\right]^2</tex>, <br />
 +
где <tex>c_{n-i+1}=frac{m_{n-i+1}}{\left(\sum_{i=1}^n m_{i,n}^2\right)^{frac{1}{2}}</tex> и <tex>m_{i,n}</tex> — математическое ожидание <i>i</i>-й порядковой статистики стандартного нормального распределения.
 +
Аппроксимация <tex>m_i=\Phi^{-1}\left(frac{i-frac{3}{8}}{n+frac{1}{4}}\right)=u_p</tex>, где <tex>p=frac{i-frac{3}{8}}{n+frac{1}{4}}</tex> не искажает существенно критерий <tex>W'</tex>.
 +
 
 +
Используя аппрокисмацию для [[Квантиль|квантили]] стандартного нормального распределения, можно записать <br />
 +
::<tex>u_p=4,91\left[p^{0,14}-(1-p)^{0,14}</tex>, <br />
 +
и для <tex>p=frac{i-frac{3}{8}}{n+frac{1}{4}}</tex> имеем <tex>m_i=4,91\left{\left(frac{i-frac{3}{8}}{n+frac{1}{4}}\right)^{0,14}-\left(frac{n-i+frac{5}{8}}{n+frac{1}{4}}\right)^{0,14}\right}</tex>.
 +
 
== См. также ==
== См. также ==
== Ссылки ==
== Ссылки ==

Версия 07:03, 13 ноября 2008

Содержание

Критерий Шапиро-Уилка используется для проверки гипотезы H_0: «случайная величина X распределена нормально» и является одним наиболее эффективных критериев проверки нормальности. Критери, проверяющие нормальность выборки, являются частным случаем критериев согласия. Если выборка нормальна, можно далее применять мощные параметричексие критерии, например, критерий Фишера.

Описание критерия

Критерий Шапиро-Уилка основан на оптимальной линейной несмещённой оценке дисперсии к её обычной оценке методом максимального правдоподобия. Статистика критерия имеет вид:

W=\frac{1}{s^2}\left[\sum_{i=1}^k a_{n-i+1} (x_{n-i+1} -x_i)\right]^2,

где s^2=\sum_{i=1}^n (x_i -\overline{x})^2, \overline{x}=\frac{1}{n}\sum_{i=1}^n x_i.

Числитель является квадратом оценки среднеквадратического отклонения Ллойда.

Критерии значимости статистики W(\alpha) также находятся таблично.

Если W<W(\alpha), то нулевая статистика о нормальности распределения отклоняется на уровне значимости \alpha. Приближённая вероятность получения эмпирического значения W при H_0 вычисляется по формуле

z=\gamma+\theta \ln \left(\frac{W-\epsilon}{1-W}\right),

где \gamma,\; \theta,\; \epsilon — табличные коэффициенты.

Критерий Шапиро-Уилка является очень мощным критерием для проверки нормальности, но, к сожалению, имеет ограниченную применимость. При больших значениях n \;(n>100) таблицы коэффициентов a_{n-i+1} становятся неудобными. Для решение этой проблемыбыла предложена модификация критерия Шапиро-Уилка, о которой рассказано ниже.

Критерий Шапиро-Франчиа

Введённая статистика имеет вид

W'=\frac{1}{s^2}\left[\sum_{i=1}^k c_{n-i+1} (x_{n-i+1} -x_i)\right]^2,

где c_{n-i+1}=frac{m_{n-i+1}}{\left(\sum_{i=1}^n m_{i,n}^2\right)^{frac{1}{2}} и m_{i,n} — математическое ожидание i-й порядковой статистики стандартного нормального распределения. Аппроксимация m_i=\Phi^{-1}\left(frac{i-frac{3}{8}}{n+frac{1}{4}}\right)=u_p, где p=frac{i-frac{3}{8}}{n+frac{1}{4}} не искажает существенно критерий W'.

Используя аппрокисмацию для квантили стандартного нормального распределения, можно записать

u_p=4,91\left[p^{0,14}-(1-p)^{0,14},

и для p=frac{i-frac{3}{8}}{n+frac{1}{4}} имеем m_i=4,91\left{\left(frac{i-frac{3}{8}}{n+frac{1}{4}}\right)^{0,14}-\left(frac{n-i+frac{5}{8}}{n+frac{1}{4}}\right)^{0,14}\right}.

См. также

Ссылки

Литература

Статья в настоящий момент дорабатывается.
Дорофеев Н.Ю. 09:58, 12 ноября 2008 (MSK)
Личные инструменты