Статистический анализ данных (курс лекций, К.В.Воронцов)/2010
Материал из MachineLearning.
м (→Задание 1. Исследование статистических критериев на модельных данных) |
м |
||
Строка 36: | Строка 36: | ||
[[Изображение:Answer3.jpg|500px]] | [[Изображение:Answer3.jpg|500px]] | ||
+ | |||
+ | [[Категория:Учебные курсы]] |
Версия 18:58, 10 сентября 2010
Задание 1. Исследование статистических критериев на модельных данных
Необходимо провести исследование одного из классических критериев проверки статистических гипотез. Интерес представляет поведение достигаемого уровня значимости (p-value) как функции размера выборок и параметров распределения. В соответствии с индивидуальными параметрами задания необходимо сгенерировать одну или несколько выборок из указанного распределения, выполнить проверку гипотезы при помощи соответствующего критерия, а затем многократно повторить эту процедуру для различных значений параметров. При этом, в зависимости от индивидуальных особенностей задания, выборки могут как генерироваться заново для каждого значения объёма выборки , так и образовываться путём добавления одного элемента к уже имеющейся выборке объёма . По результатам расчётов необходимо построить указанные в задании графики, среди которых могут быть следующие:
- график зависимости достигаемого уровня значимости от значений параметров при однократном проведении эксперимента;
- график зависимости достигаемого уровня значимости от значений параметров, усреднённого по нескольким десяткам экспериментов;
- график с эмпирическими оценками мощности критерия для разных значений параметров.
В качестве оценки мощности принимается доля отвержений нулевой гипотезы среди всех проверок. То есть, если эксперимент повторялся раз для каждого набора значений параметра, и в из случаев гипотеза была отвергнута на некотором фиксированном уровне значимости (примем ), оценкой мощности будет отношение .
Необходимо сдать: выполненный в LaTex или Microsoft Word отчёт с описанием алгоритма, построенными графиками и выводами (объяснение полученных результатов моделирования, границы применимости критерия и т.д.), а также *.m-файл.
Пример выполнения задания
Исследуем поведение классического двухвыборочного критерия Стьюдента для проверки гипотезы однородности против альтернативы сдвига.
Параметры задачи принимают следующие значения:
При каждом значении выборки для разных значений генерируются независимо.
График значений достигаемого уровня значимости при однократной генерации выборок:
График значений достигаемого уровня значимости, усрёднённых по 100 экспериментам:
График значений эмпирических оценок мощности критерия при проведении 100 экспериментов ():