Проверка гипотезы наличия тренда для количества посетителей сервиса "Яндекс Кубок"
Материал из MachineLearning.
Строка 1: | Строка 1: | ||
- | Дана статистика числа посетителей сервиса | + | Дана статистика числа посетителей сервиса "Яндекс Кубок" с марта 2001 года по ноябрь 2008 года. |
- | Необходимо проверить | + | Необходимо проверить гипотезу наличия тренда в выборке с доверительной вероятность <tex>\alpha = 0.95</tex>. |
- | + | График числа посещений изображен ниже, сами данные, вследствие открытого доступа к ним и их размера не представлены. | |
- | + | [[Изображение:YandexKubok.gif|Количество посетителей]] | |
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | | | + | |
- | + | Здесь пики приходятся на время проведения кубков Яндекса по поиску в интернете, в остальное время число посетителей мало. | |
- | [[ | + | Проверим, есть ли здесь тренд. |
+ | |||
+ | Так как мы не можем сказать, что распределение нормально и дисперсия постоянна, то [[критерий Аббе-Линника]] здесь не применим. | ||
+ | |||
+ | Сначала воспользуемся [[Критерий Фостера-Стюарта|критерием Фостера-Стюарта]]. | ||
+ | |||
+ | Статистика критерия для средних имеет вид | ||
+ | |||
+ | ::<tex>d = \sum_{i=2}^n d_i</tex>, | ||
+ | |||
+ | где | ||
+ | |||
+ | ::<tex>d_i=u_i-l_i; \quad S_i=u_i+l_i;</tex> | ||
+ | |||
+ | *если <tex>x_i>x_{i-1},\ldots,x_1</tex>, то <tex>u_i=1</tex>, в противном случае <tex>u_i=0</tex> | ||
+ | |||
+ | *если <tex>x_i<x_{i-1},\ldots,x_1</tex>, то <tex>l_i=1</tex>, в противном случае <tex>l_i=0</tex> | ||
+ | |||
+ | Получилось <tex>d=-1</tex> | ||
+ | |||
+ | При отсутствии тренда величина | ||
+ | |||
+ | ::<tex>t=\frac d f</tex>, где | ||
+ | |||
+ | ::<tex>f=\sqrt{2\ln{n}-0.8456}</tex> | ||
+ | |||
+ | имеет [[распределение Стьюдента]] с <tex>\nu=n</tex> степенями свободы. | ||
+ | |||
+ | После вычислений получаем: <tex>|t|=0.35</tex>. | ||
+ | |||
+ | <tex>\gamma</tex>-квантиль распределения Стьюдента с <tex>\nu=n</tex> степенями свободы <tex>t_{\frac{1+\alpha}2}=t_{0.975}=0.03</tex> | ||
+ | |||
+ | <tex>|t|=0.35>t_{\frac{1+\alpha}2}=t_{0.975}=0.03</tex>, поэтому гипотеза отсутствия трендов отклоняется. | ||
+ | |||
+ | Теперь воспользуемся [[Критерий Кокса-Стюарта|критерием Кокса-Стюарта]]. | ||
Сначала посчитаем статистику <tex>S_1</tex>: | Сначала посчитаем статистику <tex>S_1</tex>: | ||
Строка 108: | Строка 50: | ||
::<tex>h_{i,j} = \begin{cases} 0, & x_i>x_j; \\ 1, & x_i \leq x_j. \end{cases} \quad (i<j)</tex> | ::<tex>h_{i,j} = \begin{cases} 0, & x_i>x_j; \\ 1, & x_i \leq x_j. \end{cases} \quad (i<j)</tex> | ||
- | Получилось: <tex>S_1 = | + | Получилось: <tex>S_1 = 308</tex> |
Теперь посчитаем нормализованную статистику <tex>S_1^*</tex> | Теперь посчитаем нормализованную статистику <tex>S_1^*</tex> | ||
Строка 118: | Строка 60: | ||
::<tex>D(S_1) = \frac{n(n^2-1)}{24} </tex>. | ::<tex>D(S_1) = \frac{n(n^2-1)}{24} </tex>. | ||
- | Получилось <tex>S_1^* = -3. | + | Получилось <tex>S_1^* = -3.72</tex> |
+ | |||
+ | При <tex>|S_1^*| < u_{\frac{1+\alpha}2} </tex> гипотеза тренда среднего отклоняется (<tex>u_\gamma</tex> - <tex>\gamma</tex>-квантиль [[Нормальное распределение|нормального распределения]]). | ||
- | + | <tex>|S_1^*|=3.72 > u_{0.975} = 1.96</tex>, гипотеза тренда принимается. | |
- | + | В заключение, стоит отметить, что [[критерий Кокса-Стюарта]] намного более быстрый чем [[критерий Фостера-Стюарта]]. | |
+ | Если в [[Критерий Кокса-Стюарта|критерие Кокса-Стюарта]] сложность вычислений зависит линейно от объема данных, то в [[Критерий Фостера-Стюарта|критерие Фостера-Стюарта]] зависимость квадратичная. | ||
+ | Поэтому при больших объемах данных [[критерий Кокса-Стюарта]] оказывается более предпочтительным. | ||
==Литература== | ==Литература== | ||
#''Кобзарь А. И.'' Прикладная математическая статистика. — М.: Физматлит, 2006. — 816 с. | #''Кобзарь А. И.'' Прикладная математическая статистика. — М.: Физматлит, 2006. — 816 с. | ||
==См. также== | ==См. также== | ||
- | [[Критерий | + | *[[Критерий Фостера-Стюарта]] |
+ | *[[Критерий Кокса-Стюарта]] | ||
[[Категория:Учебные задачи]] | [[Категория:Учебные задачи]] |
Версия 18:50, 11 января 2009
Дана статистика числа посетителей сервиса "Яндекс Кубок" с марта 2001 года по ноябрь 2008 года. Необходимо проверить гипотезу наличия тренда в выборке с доверительной вероятность .
График числа посещений изображен ниже, сами данные, вследствие открытого доступа к ним и их размера не представлены.
Здесь пики приходятся на время проведения кубков Яндекса по поиску в интернете, в остальное время число посетителей мало.
Проверим, есть ли здесь тренд.
Так как мы не можем сказать, что распределение нормально и дисперсия постоянна, то критерий Аббе-Линника здесь не применим.
Сначала воспользуемся критерием Фостера-Стюарта.
Статистика критерия для средних имеет вид
- ,
где
- если , то , в противном случае
- если , то , в противном случае
Получилось
При отсутствии тренда величина
- , где
имеет распределение Стьюдента с степенями свободы.
После вычислений получаем: .
-квантиль распределения Стьюдента с степенями свободы
, поэтому гипотеза отсутствия трендов отклоняется.
Теперь воспользуемся критерием Кокса-Стюарта.
Сначала посчитаем статистику :
- , где
Получилось:
Теперь посчитаем нормализованную статистику
- , где
- и
- .
Получилось
При гипотеза тренда среднего отклоняется ( - -квантиль нормального распределения).
, гипотеза тренда принимается.
В заключение, стоит отметить, что критерий Кокса-Стюарта намного более быстрый чем критерий Фостера-Стюарта. Если в критерие Кокса-Стюарта сложность вычислений зависит линейно от объема данных, то в критерие Фостера-Стюарта зависимость квадратичная. Поэтому при больших объемах данных критерий Кокса-Стюарта оказывается более предпочтительным.
Литература
- Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006. — 816 с.