Проверка гипотезы наличия тренда для количества посетителей сервиса "Яндекс Открытки"
Материал из MachineLearning.
(Новая: Дана статистика числа посетителей сервиса "[http://weather.yandex.ru Яндекс погода] с апреля 2004 года по ноябрь 2008 ...) |
|||
Строка 1: | Строка 1: | ||
- | Дана статистика числа посетителей сервиса "[http:// | + | Дана статистика числа посетителей сервиса "[http://cards.yandex.ru Яндекс Открытки] с марта 2001 года по ноябрь 2008 года. |
- | Необходимо проверить | + | Необходимо проверить гипотезу наличия тренда в выборке с доверительной вероятность <tex>\alpha = 0.95</tex>. |
- | + | График числа посещений изображен ниже, сами данные, вследствие открытого доступа к ним и их размера не представлены. | |
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | [[Изображение:YandexCards.gif|Количество посетителей]] | |
- | [[ | + | Легко видеть, что год от года число пользователей ресурса растет. |
+ | Также видна годовая периодичность, пики приходятся на новый год (31 декабря) и 23 февраля - 8 марта. | ||
+ | |||
+ | Проверим, есть ли здесь тренд. | ||
+ | |||
+ | Так как мы не можем сказать, что распределение нормально и дисперсия постоянна, то [[критерий Аббе-Линника]] здесь не применим. | ||
+ | |||
+ | Сначала воспользуемся [[Критерий Фостера-Стюарта|критерием Фостера-Стюарта]]. | ||
Статистика критерия для средних имеет вид | Статистика критерия для средних имеет вид | ||
Строка 193: | Строка 27: | ||
*если <tex>x_i<x_{i-1},\ldots,x_1</tex>, то <tex>l_i=1</tex>, в противном случае <tex>l_i=0</tex> | *если <tex>x_i<x_{i-1},\ldots,x_1</tex>, то <tex>l_i=1</tex>, в противном случае <tex>l_i=0</tex> | ||
- | Получилось <tex>d= | + | Получилось <tex>d=11</tex> |
При отсутствии тренда величина | При отсутствии тренда величина | ||
Строка 203: | Строка 37: | ||
имеет [[распределение Стьюдента]] с <tex>\nu=n</tex> степенями свободы. | имеет [[распределение Стьюдента]] с <tex>\nu=n</tex> степенями свободы. | ||
- | <tex>|t|=11.55>t_{\frac{1+\alpha}2}=t_{0.975}=0.03</tex> | + | После вычислений получаем: <tex>|t|=11.55</tex>. |
+ | |||
+ | <tex>\gamma</tex>-квантиль распределения Стьюдента с <tex>\nu=n</tex> степенями свободы <tex>t_{\frac{1+\alpha}2}=t_{0.975}=0.03</tex> | ||
+ | |||
+ | <tex>|t|=11.55>t_{\frac{1+\alpha}2}=t_{0.975}=0.03</tex>, поэтому гипотеза отсутствия трендов отклоняется. | ||
+ | |||
+ | Теперь воспользуемся [[Критерий Кокса-Стюарта|критерием Кокса-Стюарта]]. | ||
+ | |||
+ | Сначала посчитаем статистику <tex>S_1</tex>: | ||
+ | |||
+ | ::<tex>S_1 = \sum_{i=1}^{[\frac{n}{2}]}(n-2i+1)h_{i,n-i+1}</tex>, где | ||
+ | |||
+ | ::<tex>h_{i,j} = \begin{cases} 0, & x_i>x_j; \\ 1, & x_i \leq x_j. \end{cases} \quad (i<j)</tex> | ||
+ | |||
+ | Получилось: <tex>S_1 = 66</tex> | ||
+ | |||
+ | Теперь посчитаем нормализованную статистику <tex>S_1^*</tex> | ||
+ | |||
+ | ::<tex>S_1^* = \frac{S_1 - M(S_1)}{\sqrt{D(S_1)}</tex>, где | ||
+ | |||
+ | ::<tex>M(S_1) = \frac{n^2}8 </tex> и | ||
+ | |||
+ | ::<tex>D(S_1) = \frac{n(n^2-1)}{24} </tex>. | ||
+ | |||
+ | Получилось <tex>S_1^* = -5.55</tex> | ||
+ | |||
+ | При <tex>|S_1^*| < u_{\frac{1+\alpha}2} </tex> гипотеза тренда среднего отклоняется (<tex>u_\gamma</tex> - <tex>\gamma</tex>-квантиль [[Нормальное распределение|нормального распределения]]). | ||
+ | |||
+ | <tex>|S_1^*|=5.55 > u_{0.975} = 1.96</tex>, гипотеза тренда принимается. | ||
+ | |||
+ | В заключение, стоит отметить, что [[критерий Кокса-Стюарта]] намного более быстрый чем [[критерий Фостера-Стюарта]]. | ||
+ | Если в [[Критерий Кокса-Стюарта|критерие Кокса-Стюарта]] сложность вычислений зависит линейно от объема данных, то в [[Критерий Фостера-Стюарта|критерие Фостера-Стюарта]] зависимость квадратичная. | ||
+ | Поэтому при больших объемах данных [[критерий Кокса-Стюарта]] оказывается более предпочтительным. | ||
==Литература== | ==Литература== | ||
#''Кобзарь А. И.'' Прикладная математическая статистика. — М.: Физматлит, 2006. — 816 с. | #''Кобзарь А. И.'' Прикладная математическая статистика. — М.: Физматлит, 2006. — 816 с. | ||
==См. также== | ==См. также== | ||
- | [[Критерий Фостера-Стюарта]] | + | *[[Критерий Фостера-Стюарта]] |
+ | *[[Критерий Кокса-Стюарта]] | ||
[[Категория:Учебные задачи]] | [[Категория:Учебные задачи]] |
Версия 18:10, 11 января 2009
Дана статистика числа посетителей сервиса "Яндекс Открытки с марта 2001 года по ноябрь 2008 года. Необходимо проверить гипотезу наличия тренда в выборке с доверительной вероятность .
График числа посещений изображен ниже, сами данные, вследствие открытого доступа к ним и их размера не представлены.
Легко видеть, что год от года число пользователей ресурса растет. Также видна годовая периодичность, пики приходятся на новый год (31 декабря) и 23 февраля - 8 марта.
Проверим, есть ли здесь тренд.
Так как мы не можем сказать, что распределение нормально и дисперсия постоянна, то критерий Аббе-Линника здесь не применим.
Сначала воспользуемся критерием Фостера-Стюарта.
Статистика критерия для средних имеет вид
- ,
где
- если , то , в противном случае
- если , то , в противном случае
Получилось
При отсутствии тренда величина
- , где
имеет распределение Стьюдента с степенями свободы.
После вычислений получаем: .
-квантиль распределения Стьюдента с степенями свободы
, поэтому гипотеза отсутствия трендов отклоняется.
Теперь воспользуемся критерием Кокса-Стюарта.
Сначала посчитаем статистику :
- , где
Получилось:
Теперь посчитаем нормализованную статистику
- , где
- и
- .
Получилось
При гипотеза тренда среднего отклоняется ( - -квантиль нормального распределения).
, гипотеза тренда принимается.
В заключение, стоит отметить, что критерий Кокса-Стюарта намного более быстрый чем критерий Фостера-Стюарта. Если в критерие Кокса-Стюарта сложность вычислений зависит линейно от объема данных, то в критерие Фостера-Стюарта зависимость квадратичная. Поэтому при больших объемах данных критерий Кокса-Стюарта оказывается более предпочтительным.
Литература
- Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006. — 816 с.