Проверка гипотезы наличия тренда для количества посетителей сервиса "Яндекс Кубок"
Материал из MachineLearning.
(3 промежуточные версии не показаны) | |||
Строка 1: | Строка 1: | ||
- | Дана статистика числа посетителей сервиса [http://kubok.yandex.ru | + | Дана статистика числа посетителей сервиса [http://kubok.yandex.ru Яндекс Кубок] с марта 2001 года по ноябрь 2008 года. |
Необходимо проверить гипотезу наличия тренда в выборке с доверительной вероятность <tex>\alpha = 0.95</tex>. | Необходимо проверить гипотезу наличия тренда в выборке с доверительной вероятность <tex>\alpha = 0.95</tex>. | ||
Строка 11: | Строка 11: | ||
Так как мы не можем сказать, что распределение нормально и дисперсия постоянна, то [[критерий Аббе-Линника]] здесь не применим. | Так как мы не можем сказать, что распределение нормально и дисперсия постоянна, то [[критерий Аббе-Линника]] здесь не применим. | ||
+ | |||
+ | Сформулируем нулевую гипотезу <tex>H_0</tex>: существование тренда. | ||
Сначала воспользуемся [[Критерий Фостера-Стюарта|критерием Фостера-Стюарта]]. | Сначала воспользуемся [[Критерий Фостера-Стюарта|критерием Фостера-Стюарта]]. | ||
Строка 40: | Строка 42: | ||
<tex>\gamma</tex>-квантиль распределения Стьюдента с <tex>\nu=n</tex> степенями свободы <tex>t_{\frac{1+\alpha}2}=t_{0.975}=0.03</tex> | <tex>\gamma</tex>-квантиль распределения Стьюдента с <tex>\nu=n</tex> степенями свободы <tex>t_{\frac{1+\alpha}2}=t_{0.975}=0.03</tex> | ||
- | <tex>|t|=0.35>t_{\frac{1+\alpha}2}=t_{0.975}=0.03</tex>, поэтому гипотеза | + | <tex>|t|=0.35>t_{\frac{1+\alpha}2}=t_{0.975}=0.03</tex>, поэтому нулевая гипотеза <tex>H_0</tex> существования тренда принимается. |
Теперь воспользуемся [[Критерий Кокса-Стюарта|критерием Кокса-Стюарта]]. | Теперь воспользуемся [[Критерий Кокса-Стюарта|критерием Кокса-Стюарта]]. | ||
Строка 62: | Строка 64: | ||
Получилось <tex>S_1^* = -3.72</tex> | Получилось <tex>S_1^* = -3.72</tex> | ||
- | При <tex>|S_1^*| < u_{\frac{1+\alpha}2} </tex> гипотеза тренда среднего отклоняется (<tex>u_\gamma</tex> - <tex>\gamma</tex>-квантиль [[Нормальное распределение|нормального распределения]]). | + | При <tex>|S_1^*| < u_{\frac{1+\alpha}2} </tex> гипотеза <tex>H_0</tex> существования тренда среднего отклоняется (<tex>u_\gamma</tex> - <tex>\gamma</tex>-квантиль [[Нормальное распределение|нормального распределения]]). |
- | <tex>|S_1^*|=3.72 > u_{0.975} = 1.96</tex>, гипотеза тренда принимается. | + | <tex>|S_1^*|=3.72 > u_{0.975} = 1.96</tex>, поэтому нулевая гипотеза <tex>H_0</tex> существования тренда принимается. |
В заключение, стоит отметить, что [[критерий Кокса-Стюарта]] намного более быстрый чем [[критерий Фостера-Стюарта]]. | В заключение, стоит отметить, что [[критерий Кокса-Стюарта]] намного более быстрый чем [[критерий Фостера-Стюарта]]. | ||
Если в [[Критерий Кокса-Стюарта|критерие Кокса-Стюарта]] сложность вычислений зависит линейно от объема данных, то в [[Критерий Фостера-Стюарта|критерие Фостера-Стюарта]] зависимость квадратичная. | Если в [[Критерий Кокса-Стюарта|критерие Кокса-Стюарта]] сложность вычислений зависит линейно от объема данных, то в [[Критерий Фостера-Стюарта|критерие Фостера-Стюарта]] зависимость квадратичная. | ||
Поэтому при больших объемах данных [[критерий Кокса-Стюарта]] оказывается более предпочтительным. | Поэтому при больших объемах данных [[критерий Кокса-Стюарта]] оказывается более предпочтительным. | ||
+ | |||
+ | В данной задаче оба критерия дали один и тот же результат. | ||
==Литература== | ==Литература== |
Текущая версия
Дана статистика числа посетителей сервиса Яндекс Кубок с марта 2001 года по ноябрь 2008 года. Необходимо проверить гипотезу наличия тренда в выборке с доверительной вероятность .
График числа посещений изображен ниже, сами данные, вследствие открытого доступа к ним и их размера не представлены.
Здесь пики приходятся на время проведения кубков Яндекса по поиску в интернете, в остальное время число посетителей мало.
Проверим, есть ли здесь тренд.
Так как мы не можем сказать, что распределение нормально и дисперсия постоянна, то критерий Аббе-Линника здесь не применим.
Сформулируем нулевую гипотезу : существование тренда.
Сначала воспользуемся критерием Фостера-Стюарта.
Статистика критерия для средних имеет вид
- ,
где
- если , то , в противном случае
- если , то , в противном случае
Получилось
При отсутствии тренда величина
- , где
имеет распределение Стьюдента с степенями свободы.
После вычислений получаем: .
-квантиль распределения Стьюдента с степенями свободы
, поэтому нулевая гипотеза существования тренда принимается.
Теперь воспользуемся критерием Кокса-Стюарта.
Сначала посчитаем статистику :
- , где
Получилось:
Теперь посчитаем нормализованную статистику
- , где
- и
- .
Получилось
При гипотеза существования тренда среднего отклоняется ( - -квантиль нормального распределения).
, поэтому нулевая гипотеза существования тренда принимается.
В заключение, стоит отметить, что критерий Кокса-Стюарта намного более быстрый чем критерий Фостера-Стюарта. Если в критерие Кокса-Стюарта сложность вычислений зависит линейно от объема данных, то в критерие Фостера-Стюарта зависимость квадратичная. Поэтому при больших объемах данных критерий Кокса-Стюарта оказывается более предпочтительным.
В данной задаче оба критерия дали один и тот же результат.
Литература
- Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006. — 816 с.