Проверка гипотезы наличия тренда для количества посетителей сервиса "Яндекс Кубок"

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Новая: Дана статистика числа посетителей сервиса "Яндекс пробки" с июня 2006 года по октябрь 2008 года. Необходи...)
 
(8 промежуточных версий не показаны.)
Строка 1: Строка 1:
-
Дана статистика числа посетителей сервиса "Яндекс пробки" с июня 2006 года по октябрь 2008 года.
+
Дана статистика числа посетителей сервиса [http://kubok.yandex.ru Яндекс Кубок] с марта 2001 года по ноябрь 2008 года.
-
Необходимо проверить [[Критерий Кокс-Стюарта|критерием Кокс-Стюарта]] гипотезу наличия тренда в выборке с доверительной вероятность <tex>\alpha = 0.95</tex>
+
Необходимо проверить гипотезу наличия тренда в выборке с доверительной вероятность <tex>\alpha = 0.95</tex>.
-
+
График числа посещений изображен ниже, сами данные, вследствие открытого доступа к ним и их размера не представлены.
-
{| class = "standard"
+
[[Изображение:YandexKubok.gif|Количество посетителей]]
-
!colspan=2 |Исходные данные
+
-
|-
+
-
! Месяц
+
-
! Посетители
+
-
|-
+
-
! июн.06
+
-
| 262573
+
-
|-
+
-
! июл.06
+
-
| 161612
+
-
|-
+
-
! авг.06
+
-
| 165658
+
-
|-
+
-
! сен.06
+
-
| 555343
+
-
|-
+
-
! окт.06
+
-
| 688651
+
-
|-
+
-
! ноя.06
+
-
| 802580
+
-
|-
+
-
! дек.06
+
-
| 1007314
+
-
|-
+
-
! янв.07
+
-
| 851796
+
-
|-
+
-
! фев.07
+
-
| 963174
+
-
|-
+
-
! мар.07
+
-
| 872013
+
-
|-
+
-
! апр.07
+
-
| 1029286
+
-
|-
+
-
! май.07
+
-
| 1237520
+
-
|-
+
-
! июн.07
+
-
| 1325870
+
-
|-
+
-
! июл.07
+
-
| 1153892
+
-
|-
+
-
! авг.07
+
-
| 1194696
+
-
|-
+
-
! сен.07
+
-
| 1405231
+
-
|-
+
-
! окт.07
+
-
| 1688960
+
-
|-
+
-
! ноя.07
+
-
| 1903506
+
-
|-
+
-
! дек.07
+
-
| 1846575
+
-
|-
+
-
! янв.08
+
-
| 1503286
+
-
|-
+
-
! фев.08
+
-
| 1400467
+
-
|-
+
-
! мар.08
+
-
| 1459825
+
-
|-
+
-
! апр.08
+
-
| 1972310
+
-
|-
+
-
! май.08
+
-
| 2021172
+
-
|-
+
-
! июн.08
+
-
| 1863231
+
-
|-
+
-
! июл.08
+
-
| 1778022
+
-
|-
+
-
! авг.08
+
-
| 1945312
+
-
|-
+
-
! сен.08
+
-
| 2375254
+
-
|-
+
-
! окт.08
+
-
| 2341296
+
-
|}
+
-
Ниже эти данные изображены на графике
+
Здесь пики приходятся на время проведения кубков Яндекса по поиску в интернете, в остальное время число посетителей мало.
-
[[Изображение:YandexTraffic.png|Количество посетителей]]
+
Проверим, есть ли здесь тренд.
 +
 
 +
Так как мы не можем сказать, что распределение нормально и дисперсия постоянна, то [[критерий Аббе-Линника]] здесь не применим.
 +
 
 +
Сформулируем нулевую гипотезу <tex>H_0</tex>: существование тренда.
 +
 
 +
Сначала воспользуемся [[Критерий Фостера-Стюарта|критерием Фостера-Стюарта]].
 +
 
 +
Статистика критерия для средних имеет вид
 +
 
 +
::<tex>d = \sum_{i=2}^n d_i</tex>,
 +
 
 +
где
 +
 
 +
::<tex>d_i=u_i-l_i; \quad S_i=u_i+l_i;</tex>
 +
 
 +
*если <tex>x_i>x_{i-1},\ldots,x_1</tex>, то <tex>u_i=1</tex>, в противном случае <tex>u_i=0</tex>
 +
 
 +
*если <tex>x_i<x_{i-1},\ldots,x_1</tex>, то <tex>l_i=1</tex>, в противном случае <tex>l_i=0</tex>
 +
 
 +
Получилось <tex>d=-1</tex>
 +
 
 +
При отсутствии тренда величина
 +
 
 +
::<tex>t=\frac d f</tex>, где
 +
 
 +
::<tex>f=\sqrt{2\ln{n}-0.8456}</tex>
 +
 
 +
имеет [[распределение Стьюдента]] с <tex>\nu=n</tex> степенями свободы.
 +
 
 +
После вычислений получаем: <tex>|t|=0.35</tex>.
 +
 
 +
<tex>\gamma</tex>-квантиль распределения Стьюдента с <tex>\nu=n</tex> степенями свободы <tex>t_{\frac{1+\alpha}2}=t_{0.975}=0.03</tex>
 +
 
 +
<tex>|t|=0.35>t_{\frac{1+\alpha}2}=t_{0.975}=0.03</tex>, поэтому нулевая гипотеза <tex>H_0</tex> существования тренда принимается.
 +
 
 +
Теперь воспользуемся [[Критерий Кокса-Стюарта|критерием Кокса-Стюарта]].
Сначала посчитаем статистику <tex>S_1</tex>:
Сначала посчитаем статистику <tex>S_1</tex>:
Строка 108: Строка 52:
::<tex>h_{i,j} = \begin{cases} 0, & x_i>x_j; \\ 1, & x_i \leq x_j. \end{cases} \quad (i<j)</tex>
::<tex>h_{i,j} = \begin{cases} 0, & x_i>x_j; \\ 1, & x_i \leq x_j. \end{cases} \quad (i<j)</tex>
-
Получилось: <tex>S_1 = 0</tex>
+
Получилось: <tex>S_1 = 308</tex>
Теперь посчитаем нормализованную статистику <tex>S_1^*</tex>
Теперь посчитаем нормализованную статистику <tex>S_1^*</tex>
Строка 118: Строка 62:
::<tex>D(S_1) = \frac{n(n^2-1)}{24} </tex>.
::<tex>D(S_1) = \frac{n(n^2-1)}{24} </tex>.
-
Получилось <tex>S_1^* = -3.3</tex>
+
Получилось <tex>S_1^* = -3.72</tex>
 +
 
 +
При <tex>|S_1^*| < u_{\frac{1+\alpha}2} </tex> гипотеза <tex>H_0</tex> существования тренда среднего отклоняется (<tex>u_\gamma</tex> - <tex>\gamma</tex>-квантиль [[Нормальное распределение|нормального распределения]]).
 +
 
 +
<tex>|S_1^*|=3.72 > u_{0.975} = 1.96</tex>, поэтому нулевая гипотеза <tex>H_0</tex> существования тренда принимается.
-
При <tex>|S_1^*| < u_{\frac{1+\alpha}2} </tex> гипотеза тренда среднего отклоняется.
+
В заключение, стоит отметить, что [[критерий Кокса-Стюарта]] намного более быстрый чем [[критерий Фостера-Стюарта]].
 +
Если в [[Критерий Кокса-Стюарта|критерие Кокса-Стюарта]] сложность вычислений зависит линейно от объема данных, то в [[Критерий Фостера-Стюарта|критерие Фостера-Стюарта]] зависимость квадратичная.
 +
Поэтому при больших объемах данных [[критерий Кокса-Стюарта]] оказывается более предпочтительным.
-
<tex>|S_1^*|=3.3 > u_{0.975} = 1.96</tex>, гипотеза тренда принимается.
+
В данной задаче оба критерия дали один и тот же результат.
==Литература==
==Литература==
#''Кобзарь А. И.'' Прикладная математическая статистика. — М.: Физматлит, 2006. — 816 с.
#''Кобзарь А. И.'' Прикладная математическая статистика. — М.: Физматлит, 2006. — 816 с.
==См. также==
==См. также==
-
[[Критерий Кокс-Стюарта]]
+
*[[Критерий Фостера-Стюарта]]
 +
*[[Критерий Кокса-Стюарта]]
 +
*[[Проверка гипотезы наличия тренда для количества посетителей сервиса "Яндекс Открытки"]]
[[Категория:Учебные задачи]]
[[Категория:Учебные задачи]]

Текущая версия

Дана статистика числа посетителей сервиса Яндекс Кубок с марта 2001 года по ноябрь 2008 года. Необходимо проверить гипотезу наличия тренда в выборке с доверительной вероятность \alpha = 0.95.

График числа посещений изображен ниже, сами данные, вследствие открытого доступа к ним и их размера не представлены.

Количество посетителей

Здесь пики приходятся на время проведения кубков Яндекса по поиску в интернете, в остальное время число посетителей мало.

Проверим, есть ли здесь тренд.

Так как мы не можем сказать, что распределение нормально и дисперсия постоянна, то критерий Аббе-Линника здесь не применим.

Сформулируем нулевую гипотезу H_0: существование тренда.

Сначала воспользуемся критерием Фостера-Стюарта.

Статистика критерия для средних имеет вид

d = \sum_{i=2}^n d_i,

где

d_i=u_i-l_i; \quad S_i=u_i+l_i;
  • если x_i>x_{i-1},\ldots,x_1, то u_i=1, в противном случае u_i=0
  • если x_i<x_{i-1},\ldots,x_1, то l_i=1, в противном случае l_i=0

Получилось d=-1

При отсутствии тренда величина

t=\frac d f, где
f=\sqrt{2\ln{n}-0.8456}

имеет распределение Стьюдента с \nu=n степенями свободы.

После вычислений получаем: |t|=0.35.

\gamma-квантиль распределения Стьюдента с \nu=n степенями свободы t_{\frac{1+\alpha}2}=t_{0.975}=0.03

|t|=0.35>t_{\frac{1+\alpha}2}=t_{0.975}=0.03, поэтому нулевая гипотеза H_0 существования тренда принимается.

Теперь воспользуемся критерием Кокса-Стюарта.

Сначала посчитаем статистику S_1:

S_1 = \sum_{i=1}^{[\frac{n}{2}]}(n-2i+1)h_{i,n-i+1}, где
h_{i,j} = \begin{cases} 0, & x_i>x_j; \\ 1, & x_i \leq x_j. \end{cases} \quad (i<j)

Получилось: S_1 = 308

Теперь посчитаем нормализованную статистику S_1^*

S_1^* = \frac{S_1 - M(S_1)}{\sqrt{D(S_1)}, где
M(S_1) = \frac{n^2}8 и
D(S_1) = \frac{n(n^2-1)}{24} .

Получилось S_1^* = -3.72

При |S_1^*| < u_{\frac{1+\alpha}2} гипотеза H_0 существования тренда среднего отклоняется (u_\gamma - \gamma-квантиль нормального распределения).

|S_1^*|=3.72 > u_{0.975} = 1.96, поэтому нулевая гипотеза H_0 существования тренда принимается.

В заключение, стоит отметить, что критерий Кокса-Стюарта намного более быстрый чем критерий Фостера-Стюарта. Если в критерие Кокса-Стюарта сложность вычислений зависит линейно от объема данных, то в критерие Фостера-Стюарта зависимость квадратичная. Поэтому при больших объемах данных критерий Кокса-Стюарта оказывается более предпочтительным.

В данной задаче оба критерия дали один и тот же результат.

Литература

  1. Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006. — 816 с.

См. также

Личные инструменты