Проверка гипотезы наличия тренда для количества посетителей сервиса "Яндекс Открытки"

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Новая: Дана статистика числа посетителей сервиса "[http://weather.yandex.ru Яндекс погода] с апреля 2004 года по ноябрь 2008 ...)
Строка 1: Строка 1:
-
Дана статистика числа посетителей сервиса "[http://weather.yandex.ru Яндекс погода] с апреля 2004 года по ноябрь 2008 года.
+
Дана статистика числа посетителей сервиса "[http://cards.yandex.ru Яндекс Открытки] с марта 2001 года по ноябрь 2008 года.
-
Необходимо проверить [[Критерий Фостера-Стюарта|критерием Фостера-Стюарта]] гипотезу наличия тренда в выборке с доверительной вероятность <tex>\alpha = 0.95</tex>
+
Необходимо проверить гипотезу наличия тренда в выборке с доверительной вероятность <tex>\alpha = 0.95</tex>.
-
{| class="standard"
+
График числа посещений изображен ниже, сами данные, вследствие открытого доступа к ним и их размера не представлены.
-
!colspan=2 |Исходные данные
+
-
|-
+
-
!Месяц
+
-
! Посетители
+
-
|-
+
-
! ноя.08
+
-
| 6839042
+
-
|-
+
-
! окт.08
+
-
| 6604397
+
-
|-
+
-
! сен.08
+
-
| 7200674
+
-
|-
+
-
! авг.08
+
-
| 6710614
+
-
|-
+
-
! июл.08
+
-
| 6729874
+
-
|-
+
-
! июн.08
+
-
| 6911806
+
-
|-
+
-
! май.08
+
-
| 7186345
+
-
|-
+
-
! апр.08
+
-
| 6437791
+
-
|-
+
-
! мар.08
+
-
| 5310679
+
-
|-
+
-
! фев.08
+
-
| 4337281
+
-
|-
+
-
! янв.08
+
-
| 4922549
+
-
|-
+
-
! дек.07
+
-
| 4270767
+
-
|-
+
-
! ноя.07
+
-
| 4242523
+
-
|-
+
-
! окт.07
+
-
| 4323213
+
-
|-
+
-
! сен.07
+
-
| 4141158
+
-
|-
+
-
! авг.07
+
-
| 4137585
+
-
|-
+
-
! июл.07
+
-
| 3955858
+
-
|-
+
-
! июн.07
+
-
| 4132240
+
-
|-
+
-
! май.07
+
-
| 4428020
+
-
|-
+
-
! апр.07
+
-
| 3854082
+
-
|-
+
-
! мар.07
+
-
| 3332709
+
-
|-
+
-
! фев.07
+
-
| 3487135
+
-
|-
+
-
! янв.07
+
-
| 3073545
+
-
|-
+
-
! дек.06
+
-
| 2965427
+
-
|-
+
-
! ноя.06
+
-
| 2668468
+
-
|-
+
-
! окт.06
+
-
| 2517485
+
-
|-
+
-
! сен.06
+
-
| 2509133
+
-
|-
+
-
! авг.06
+
-
| 2430593
+
-
|-
+
-
! июл.06
+
-
| 2517802
+
-
|-
+
-
! июн.06
+
-
| 2520395
+
-
|-
+
-
! май.06
+
-
| 2386029
+
-
|-
+
-
! апр.06
+
-
| 2118837
+
-
|-
+
-
! мар.06
+
-
| 2221463
+
-
|-
+
-
! фев.06
+
-
| 1927993
+
-
|-
+
-
! янв.06
+
-
| 2356196
+
-
|-
+
-
! дек.05
+
-
| 1321934
+
-
|-
+
-
! ноя.05
+
-
| 1235223
+
-
|-
+
-
! окт.05
+
-
| 1263194
+
-
|-
+
-
! сен.05
+
-
| 1061627
+
-
|-
+
-
! авг.05
+
-
| 1083987
+
-
|-
+
-
! июл.05
+
-
| 1163204
+
-
|-
+
-
! июн.05
+
-
| 1274383
+
-
|-
+
-
! май.05
+
-
| 1227657
+
-
|-
+
-
! апр.05
+
-
| 1144352
+
-
|-
+
-
! мар.05
+
-
| 984499
+
-
|-
+
-
! фев.05
+
-
| 747940
+
-
|-
+
-
! янв.05
+
-
| 684160
+
-
|-
+
-
! дек.04
+
-
| 643831
+
-
|-
+
-
! ноя.04
+
-
| 636364
+
-
|-
+
-
!окт.04
+
-
| 564786
+
-
|-
+
-
! сен.04
+
-
| 606194
+
-
|-
+
-
! авг.04
+
-
| 590477
+
-
|-
+
-
! июл.04
+
-
| 621192
+
-
|-
+
-
! июн.04
+
-
| 487549
+
-
|-
+
-
! май.04
+
-
| 248720
+
-
|-
+
-
! апр.04
+
-
| 30698
+
-
|}
+
-
Ниже эти данные изображены на графике
+
[[Изображение:YandexCards.gif|Количество посетителей]]
-
[[Изображение:YandexWeather.gif|Количество посетителей]]
+
Легко видеть, что год от года число пользователей ресурса растет.
 +
Также видна годовая периодичность, пики приходятся на новый год (31 декабря) и 23 февраля - 8 марта.
 +
 
 +
Проверим, есть ли здесь тренд.
 +
 
 +
Так как мы не можем сказать, что распределение нормально и дисперсия постоянна, то [[критерий Аббе-Линника]] здесь не применим.
 +
 
 +
Сначала воспользуемся [[Критерий Фостера-Стюарта|критерием Фостера-Стюарта]].
Статистика критерия для средних имеет вид
Статистика критерия для средних имеет вид
Строка 193: Строка 27:
*если <tex>x_i<x_{i-1},\ldots,x_1</tex>, то <tex>l_i=1</tex>, в противном случае <tex>l_i=0</tex>
*если <tex>x_i<x_{i-1},\ldots,x_1</tex>, то <tex>l_i=1</tex>, в противном случае <tex>l_i=0</tex>
-
Получилось <tex>d=-31</tex>
+
Получилось <tex>d=11</tex>
При отсутствии тренда величина
При отсутствии тренда величина
Строка 203: Строка 37:
имеет [[распределение Стьюдента]] с <tex>\nu=n</tex> степенями свободы.
имеет [[распределение Стьюдента]] с <tex>\nu=n</tex> степенями свободы.
-
<tex>|t|=11.55>t_{\frac{1+\alpha}2}=t_{0.975}=0.03</tex> (<tex>t_{\gamma}</tex> <tex>\gamma</tex>-квантиль распределения Стьюдента), гипотеза отсутствия трендов отклоняется.
+
После вычислений получаем: <tex>|t|=11.55</tex>.
 +
 
 +
<tex>\gamma</tex>-квантиль распределения Стьюдента с <tex>\nu=n</tex> степенями свободы <tex>t_{\frac{1+\alpha}2}=t_{0.975}=0.03</tex>
 +
 
 +
<tex>|t|=11.55>t_{\frac{1+\alpha}2}=t_{0.975}=0.03</tex>, поэтому гипотеза отсутствия трендов отклоняется.
 +
 
 +
Теперь воспользуемся [[Критерий Кокса-Стюарта|критерием Кокса-Стюарта]].
 +
 
 +
Сначала посчитаем статистику <tex>S_1</tex>:
 +
 
 +
::<tex>S_1 = \sum_{i=1}^{[\frac{n}{2}]}(n-2i+1)h_{i,n-i+1}</tex>, где
 +
 
 +
::<tex>h_{i,j} = \begin{cases} 0, & x_i>x_j; \\ 1, & x_i \leq x_j. \end{cases} \quad (i<j)</tex>
 +
 
 +
Получилось: <tex>S_1 = 66</tex>
 +
 
 +
Теперь посчитаем нормализованную статистику <tex>S_1^*</tex>
 +
 
 +
::<tex>S_1^* = \frac{S_1 - M(S_1)}{\sqrt{D(S_1)}</tex>, где
 +
 
 +
::<tex>M(S_1) = \frac{n^2}8 </tex> и
 +
 
 +
::<tex>D(S_1) = \frac{n(n^2-1)}{24} </tex>.
 +
 
 +
Получилось <tex>S_1^* = -5.55</tex>
 +
 
 +
При <tex>|S_1^*| < u_{\frac{1+\alpha}2} </tex> гипотеза тренда среднего отклоняется (<tex>u_\gamma</tex> - <tex>\gamma</tex>-квантиль [[Нормальное распределение|нормального распределения]]).
 +
 
 +
<tex>|S_1^*|=5.55 > u_{0.975} = 1.96</tex>, гипотеза тренда принимается.
 +
 
 +
В заключение, стоит отметить, что [[критерий Кокса-Стюарта]] намного более быстрый чем [[критерий Фостера-Стюарта]].
 +
Если в [[Критерий Кокса-Стюарта|критерие Кокса-Стюарта]] сложность вычислений зависит линейно от объема данных, то в [[Критерий Фостера-Стюарта|критерие Фостера-Стюарта]] зависимость квадратичная.
 +
Поэтому при больших объемах данных [[критерий Кокса-Стюарта]] оказывается более предпочтительным.
==Литература==
==Литература==
#''Кобзарь А. И.'' Прикладная математическая статистика. — М.: Физматлит, 2006. — 816 с.
#''Кобзарь А. И.'' Прикладная математическая статистика. — М.: Физматлит, 2006. — 816 с.
==См. также==
==См. также==
-
[[Критерий Фостера-Стюарта]]
+
*[[Критерий Фостера-Стюарта]]
 +
*[[Критерий Кокса-Стюарта]]
[[Категория:Учебные задачи]]
[[Категория:Учебные задачи]]

Версия 18:10, 11 января 2009

Дана статистика числа посетителей сервиса "Яндекс Открытки с марта 2001 года по ноябрь 2008 года. Необходимо проверить гипотезу наличия тренда в выборке с доверительной вероятность \alpha = 0.95.

График числа посещений изображен ниже, сами данные, вследствие открытого доступа к ним и их размера не представлены.

Количество посетителей

Легко видеть, что год от года число пользователей ресурса растет. Также видна годовая периодичность, пики приходятся на новый год (31 декабря) и 23 февраля - 8 марта.

Проверим, есть ли здесь тренд.

Так как мы не можем сказать, что распределение нормально и дисперсия постоянна, то критерий Аббе-Линника здесь не применим.

Сначала воспользуемся критерием Фостера-Стюарта.

Статистика критерия для средних имеет вид

d = \sum_{i=2}^n d_i,

где

d_i=u_i-l_i; \quad S_i=u_i+l_i;
  • если x_i>x_{i-1},\ldots,x_1, то u_i=1, в противном случае u_i=0
  • если x_i<x_{i-1},\ldots,x_1, то l_i=1, в противном случае l_i=0

Получилось d=11

При отсутствии тренда величина

t=\frac d f, где
f=\sqrt{2\ln{n}-0.8456}

имеет распределение Стьюдента с \nu=n степенями свободы.

После вычислений получаем: |t|=11.55.

\gamma-квантиль распределения Стьюдента с \nu=n степенями свободы t_{\frac{1+\alpha}2}=t_{0.975}=0.03

|t|=11.55>t_{\frac{1+\alpha}2}=t_{0.975}=0.03, поэтому гипотеза отсутствия трендов отклоняется.

Теперь воспользуемся критерием Кокса-Стюарта.

Сначала посчитаем статистику S_1:

S_1 = \sum_{i=1}^{[\frac{n}{2}]}(n-2i+1)h_{i,n-i+1}, где
h_{i,j} = \begin{cases} 0, & x_i>x_j; \\ 1, & x_i \leq x_j. \end{cases} \quad (i<j)

Получилось: S_1 = 66

Теперь посчитаем нормализованную статистику S_1^*

S_1^* = \frac{S_1 - M(S_1)}{\sqrt{D(S_1)}, где
M(S_1) = \frac{n^2}8 и
D(S_1) = \frac{n(n^2-1)}{24} .

Получилось S_1^* = -5.55

При |S_1^*| < u_{\frac{1+\alpha}2} гипотеза тренда среднего отклоняется (u_\gamma - \gamma-квантиль нормального распределения).

|S_1^*|=5.55 > u_{0.975} = 1.96, гипотеза тренда принимается.

В заключение, стоит отметить, что критерий Кокса-Стюарта намного более быстрый чем критерий Фостера-Стюарта. Если в критерие Кокса-Стюарта сложность вычислений зависит линейно от объема данных, то в критерие Фостера-Стюарта зависимость квадратичная. Поэтому при больших объемах данных критерий Кокса-Стюарта оказывается более предпочтительным.

Литература

  1. Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006. — 816 с.

См. также

Личные инструменты