Проверка гипотезы наличия тренда для количества посетителей сервиса "Яндекс Кубок"

Материал из MachineLearning.

(Различия между версиями)

Версия 18:50, 11 января 2009

Дана статистика числа посетителей сервиса "Яндекс Кубок" с марта 2001 года по ноябрь 2008 года. Необходимо проверить гипотезу наличия тренда в выборке с доверительной вероятность $\alpha = 0.95$ .

График числа посещений изображен ниже, сами данные, вследствие открытого доступа к ним и их размера не представлены.

Здесь пики приходятся на время проведения кубков Яндекса по поиску в интернете, в остальное время число посетителей мало.

Проверим, есть ли здесь тренд.

Так как мы не можем сказать, что распределение нормально и дисперсия постоянна, то критерий Аббе-Линника здесь не применим.

Сначала воспользуемся критерием Фостера-Стюарта.

Статистика критерия для средних имеет вид

$d = \sum_{i=2}^n d_i$ ,

где

$d_i=u_i-l_i; \quad S_i=u_i+l_i;$

если $x_i>x_{i-1},\ldots,x_1$ , то $u_i=1$ , в противном случае $u_i=0$

если $x_i<x_{i-1},\ldots,x_1$ , то $l_i=1$ , в противном случае $l_i=0$

Получилось $d=-1$

При отсутствии тренда величина

$t=\frac d f$ , где

$f=\sqrt{2\ln{n}-0.8456}$

имеет распределение Стьюдента с $\nu=n$ степенями свободы.

После вычислений получаем: $|t|=0.35$ .

$\gamma$ -квантиль распределения Стьюдента с $\nu=n$ степенями свободы $t_{\frac{1+\alpha}2}=t_{0.975}=0.03$

$|t|=0.35>t_{\frac{1+\alpha}2}=t_{0.975}=0.03$ , поэтому гипотеза отсутствия трендов отклоняется.

Теперь воспользуемся критерием Кокса-Стюарта.

Сначала посчитаем статистику $S_1$ :

$S_1 = \sum_{i=1}^{[\frac{n}{2}]}(n-2i+1)h_{i,n-i+1}$ , где

$h_{i,j} = \begin{cases} 0, & x_i>x_j; \\ 1, & x_i \leq x_j. \end{cases} \quad (i<j)$

Получилось: $S_1 = 308$

Теперь посчитаем нормализованную статистику $S_1^*$

$S_1^* = \frac{S_1 - M(S_1)}{\sqrt{D(S_1)}$ , где

$M(S_1) = \frac{n^2}8$ и

$D(S_1) = \frac{n(n^2-1)}{24}$ .

Получилось $S_1^* = -3.72$

При $|S_1^*| < u_{\frac{1+\alpha}2}$ гипотеза тренда среднего отклоняется ( $u_\gamma$ - $\gamma$ -квантиль нормального распределения).

$|S_1^*|=3.72 > u_{0.975} = 1.96$ , гипотеза тренда принимается.

В заключение, стоит отметить, что критерий Кокса-Стюарта намного более быстрый чем критерий Фостера-Стюарта. Если в критерие Кокса-Стюарта сложность вычислений зависит линейно от объема данных, то в критерие Фостера-Стюарта зависимость квадратичная. Поэтому при больших объемах данных критерий Кокса-Стюарта оказывается более предпочтительным.

Литература

Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006. — 816 с.

См. также

Источник — «http://machinelearning.ru/wiki/index.php?title=%D0%9F%D1%80%D0%BE%D0%B2%D0%B5%D1%80%D0%BA%D0%B0_%D0%B3%D0%B8%D0%BF%D0%BE%D1%82%D0%B5%D0%B7%D1%8B_%D0%BD%D0%B0%D0%BB%D0%B8%D1%87%D0%B8%D1%8F_%D1%82%D1%80%D0%B5%D0%BD%D0%B4%D0%B0_%D0%B4%D0%BB%D1%8F_%D0%BA%D0%BE%D0%BB%D0%B8%D1%87%D0%B5%D1%81%D1%82%D0%B2%D0%B0_%D0%BF%D0%BE%D1%81%D0%B5%D1%82%D0%B8%D1%82%D0%B5%D0%BB%D0%B5%D0%B9_%D1%81%D0%B5%D1%80%D0%B2%D0%B8%D1%81%D0%B0_%22%D0%AF%D0%BD%D0%B4%D0%B5%D0%BA%D1%81_%D0%9A%D1%83%D0%B1%D0%BE%D0%BA%22»

Категория: Учебные задачи

@@ Строка 1: / Строка 1: @@
-Дана статистика числа посетителей сервиса [http://maps.yandex.ru/moscow_traffic Яндекс пробки] с июня 2006 года по октябрь 2008 года.
+Дана статистика числа посетителей сервиса "Яндекс Кубок" с марта 2001 года по ноябрь 2008 года.
-Необходимо проверить [[Критерий Кокс-Стюарта|критерием Кокс-Стюарта]] гипотезу наличия тренда в выборке с доверительной вероятность <tex>\alpha = 0.95</tex>
+Необходимо проверить гипотезу наличия тренда в выборке с доверительной вероятность <tex>\alpha = 0.95</tex>.
+График числа посещений изображен ниже, сами данные, вследствие открытого доступа к ним и их размера не представлены.
-{| class = "standard"
+[[Изображение:YandexKubok.gif|Количество посетителей]]
-!colspan=2 |Исходные данные
-|-
-! Месяц
-! Посетители
-|-
-! июн.06
-| 262573
-|-
-! июл.06
-| 161612
-|-
-! авг.06
-| 165658
-|-
-! сен.06
-| 555343
-|-
-! окт.06
-| 688651
-|-
-! ноя.06
-| 802580
-|-
-! дек.06
-| 1007314
-|-
-! янв.07
-| 851796
-|-
-! фев.07
-| 963174
-|-
-! мар.07
-| 872013
-|-
-! апр.07
-| 1029286
-|-
-! май.07
-| 1237520
-|-
-! июн.07
-| 1325870
-|-
-! июл.07
-| 1153892
-|-
-! авг.07
-| 1194696
-|-
-! сен.07
-| 1405231
-|-
-! окт.07
-| 1688960
-|-
-! ноя.07
-| 1903506
-|-
-! дек.07
-| 1846575
-|-
-! янв.08
-| 1503286
-|-
-! фев.08
-| 1400467
-|-
-! мар.08
-| 1459825
-|-
-! апр.08
-| 1972310
-|-
-! май.08
-| 2021172
-|-
-! июн.08
-| 1863231
-|-
-! июл.08
-| 1778022
-|-
-! авг.08
-| 1945312
-|-
-! сен.08
-| 2375254
-|-
-! окт.08
-| 2341296
-|}
-Ниже эти данные изображены на графике
+Здесь пики приходятся на время проведения кубков Яндекса по поиску в интернете, в остальное время число посетителей мало.
-[[Изображение:YandexTraffic.png|Количество посетителей]]
+Проверим, есть ли здесь тренд.
+Так как мы не можем сказать, что распределение нормально и дисперсия постоянна, то [[критерий Аббе-Линника]] здесь не применим.
+Сначала воспользуемся [[Критерий Фостера-Стюарта|критерием Фостера-Стюарта]].
+Статистика критерия для средних имеет вид
+::<tex>d = \sum_{i=2}^n d_i</tex>,
+где
+::<tex>d_i=u_i-l_i; \quad S_i=u_i+l_i;</tex>
+*если <tex>x_i>x_{i-1},\ldots,x_1</tex>, то <tex>u_i=1</tex>, в противном случае <tex>u_i=0</tex>
+*если <tex>x_i<x_{i-1},\ldots,x_1</tex>, то <tex>l_i=1</tex>, в противном случае <tex>l_i=0</tex>
+Получилось <tex>d=-1</tex>
+При отсутствии тренда величина
+::<tex>t=\frac d f</tex>, где
+::<tex>f=\sqrt{2\ln{n}-0.8456}</tex>
+имеет [[распределение Стьюдента]] с <tex>\nu=n</tex> степенями свободы.
+После вычислений получаем: <tex>|t|=0.35</tex>.
+<tex>\gamma</tex>-квантиль распределения Стьюдента с <tex>\nu=n</tex> степенями свободы <tex>t_{\frac{1+\alpha}2}=t_{0.975}=0.03</tex>
+<tex>|t|=0.35>t_{\frac{1+\alpha}2}=t_{0.975}=0.03</tex>, поэтому гипотеза отсутствия трендов отклоняется.
+Теперь воспользуемся [[Критерий Кокса-Стюарта|критерием Кокса-Стюарта]].
 Сначала посчитаем статистику <tex>S_1</tex>:
@@ Строка 108: / Строка 50: @@
 ::<tex>h_{i,j} = \begin{cases} 0, & x_i>x_j; \\ 1, & x_i \leq x_j. \end{cases} \quad (i<j)</tex>
-Получилось: <tex>S_1 = 0</tex>
+Получилось: <tex>S_1 = 308</tex>
 Теперь посчитаем нормализованную статистику <tex>S_1^*</tex>
@@ Строка 118: / Строка 60: @@
 ::<tex>D(S_1) = \frac{n(n^2-1)}{24} </tex>.
-Получилось <tex>S_1^* = -3.3</tex>
+Получилось <tex>S_1^* = -3.72</tex>
+При <tex>|S_1^*| < u_{\frac{1+\alpha}2} </tex> гипотеза тренда среднего отклоняется (<tex>u_\gamma</tex> - <tex>\gamma</tex>-квантиль [[Нормальное распределение|нормального распределения]]).
-При <tex>|S_1^*| < u_{\frac{1+\alpha}2} </tex> гипотеза тренда среднего отклоняется.
+<tex>|S_1^*|=3.72 > u_{0.975} = 1.96</tex>, гипотеза тренда принимается.
-<tex>|S_1^*|=3.3 > u_{0.975} = 1.96</tex>, гипотеза тренда принимается.
+В заключение, стоит отметить, что [[критерий Кокса-Стюарта]] намного более быстрый чем [[критерий Фостера-Стюарта]].
+Если в [[Критерий Кокса-Стюарта|критерие Кокса-Стюарта]] сложность вычислений зависит линейно от объема данных, то в [[Критерий Фостера-Стюарта|критерие Фостера-Стюарта]] зависимость квадратичная.
+Поэтому при больших объемах данных [[критерий Кокса-Стюарта]] оказывается более предпочтительным.
 ==Литература==
 #''Кобзарь А. И.'' Прикладная математическая статистика. — М.: Физматлит, 2006. — 816 с.
 ==См. также==
-[[Критерий Кокс-Стюарта]]
+*[[Критерий Фостера-Стюарта]]
+*[[Критерий Кокса-Стюарта]]
 [[Категория:Учебные задачи]]

Проверка гипотезы наличия тренда для количества посетителей сервиса "Яндекс Кубок"

Материал из MachineLearning.

Версия 18:50, 11 января 2009

Литература

См. также

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты