Статистический анализ данных (курс лекций, К.В.Воронцов)/2010

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
м
м
Строка 1: Строка 1:
-
= Задание 1. Исследование свойств одномерных статистических критериев на модельных данных =
 
-
Необходимо провести исследование одного или нескольких классических критериев проверки статистических гипотез. Интерес представляет поведение
 
-
[[Достигаемый уровень значимости|достигаемого уровня значимости]] (p-value) как функции размера выборок и параметров распределения. В соответствии с индивидуальными параметрами задания необходимо указанным способом сгенерировать одну или несколько выборок из заданного распределения, выполнить [[Проверка статистических гипотез|проверку гипотезы]] при помощи соответствующего критерия, а затем многократно повторить эту процедуру для различных значений параметров. По результатам расчётов необходимо построить требуемые в задании графики, среди которых могут быть следующие:
 
-
 
-
# график зависимости достигаемого уровня значимости от значений параметров при однократном проведении эксперимента;
 
-
# график зависимости достигаемого уровня значимости от значений параметров, усреднённого по большому количеству повторений эксперимента (например, по 100, 500, 1000 повторений);
 
-
# график с эмпирическими оценками [[Мощность критерия|мощности критерия]] для разных значений параметров.
 
-
 
-
В качестве оценки мощности принимается доля отвержений нулевой гипотезы среди всех проверок. То есть, если эксперимент повторялся <tex>k</tex> раз для каждого набора значений параметра, и в <tex>m</tex> из <tex>k</tex> случаев гипотеза была отвергнута на некотором фиксированном уровне значимости <tex>\alpha</tex> (примем <tex>\alpha=0.05</tex>), оценкой мощности будет отношение <tex>m/k</tex>.
 
-
 
-
Необходимо сдать: выполненный в LaTex или Microsoft Word отчёт с описанием алгоритма, построенными графиками и '''выводами (объяснение полученных результатов моделирования, границы применимости критерия и т.д.)''', а также *.m-файл.
 
-
 
-
== Пример задания ==
 
-
Исследуем поведение классического двухвыборочного [[Критерий Стьюдента|критерия Стьюдента]] для проверки гипотезы однородности против [[Гипотеза сдвига|альтернативы сдвига]] при разных значениях параметров.
 
-
 
-
<tex>x^n = (x_1,\ldots,x_n)\sim N(\mu_1,\sigma),\;\; y^n = (y_1,\ldots,y_n)\sim N(\mu_2,\sigma);</tex>
 
-
 
-
<tex>H_0\,:\; \mu_1=\mu_2,</tex>
 
-
 
-
<tex>H_1\,:\; \mu_1\neq\mu_2.</tex>
 
-
 
-
<tex>\sigma = 1; \;\;\; \mu_1=0; \;\;\; \mu_2=0\,:\,0.05\,:\,3; \;\;\; n=5\,:\,1\,:\,50.</tex>
 
-
 
-
При каждом значении <tex>\mu_2</tex> выборки для разных значений <tex>n</tex> генерируются независимо.
 
-
 
-
<gallery widths="250px" heights="250px">
 
-
Изображение:Answer.jpg|График 1: значения достигаемого уровня значимости при однократной генерации выборок.
 
-
Изображение:Answer2.jpg|График 2: значения достигаемого уровня значимости, усрёднённые по 100 экспериментам.
 
-
Изображение:Answer3.jpg|График 3: значения эмпирических оценок мощности критерия при проведении 100 экспериментов (<tex>\alpha=0.05</tex>).
 
-
</gallery>
 
-
 
== Задания==
== Задания==
=== Анализ устойчивости критериев к нарушению предположений ===
=== Анализ устойчивости критериев к нарушению предположений ===
Строка 53: Строка 22:
=== Анализ поведения схожих критериев ===
=== Анализ поведения схожих критериев ===
-
Требуется исследовать поведение пары статистических критериев, решающих одну и ту же задачу, и сделать выводы о границах их применимости. Необходимо сделать вывод о том, в каких областях изменения параметров предпочтительнее использовать тот или иной критерий.
+
Требуется исследовать поведение указанной пары статистических критериев, проверяющих одну и ту же гипотезу, сравнить мощность и достигаемые уровни значимости и сделать выводы о границах применимости критериев. Необходимо для каждого из критериев построить графики вида 1, 2, 3, и показать, в каких областях изменения параметров предпочтительнее использовать тот или иной критерий.
 +
* <tex>x^n \sim N(0,1),\;\;y^n \sim N(\mu,1);</tex> <br> <tex>H_0\,:\; \mu=0, \;\;\; H_1\,:\; \mu\neq 0; </tex> <br> <tex>\mu=-2\,:\,0.02\,:\,2;\;\; n=10\,:\,5\,:\,100.</tex>
 +
 
 +
: Студент 11: двухвыборочный [[критерий Стьюдента]] для независимых выборок и [[критерий Уилкоксона-Манна-Уитни]].
 +
: Студент 12: двухвыборочный [[критерий Стьюдента]] для связных выборок и [[критерий Уилкоксона для связных выборок]].
 +
: Студент 13: двухвыборочные [[критерий Стьюдента]] для связных и независимых выборок.
 +
: Студент 14: [[критерий Уилкоксона-Манна-Уитни]] и [[медианный критерий]].
 +
: Студент 15: [[критерий Уилкоксона для связных выборок]] и [[критерий знаков]].
[[Категория:Учебные курсы]]
[[Категория:Учебные курсы]]

Версия 18:20, 12 сентября 2010

Содержание

Задания

Анализ устойчивости критериев к нарушению предположений

  • Исследовать устойчивость одновыборочного критерия Стьюдента к нарушению предположения о нормальности данных. x^n — смесь распределений N(\mu,1) и U[-a+\mu,a+\mu] с весами p и 1-p соответственно (при генерации выборки используется случайный датчик — если его значение не превосходит p, то добавляем в выборку элемент, взятый из нормального распределения, иначе — элемент, взятый из равномерного). Для разных значений параметров выборки генерируются независимо.
    H_0\,:\; \mu=0, \;\; H_1\,:\; \mu\neq 0;
    p=0\,:\,0.02\,:\,1; \;\;  \mu=-1\,:\,0.05\,:\,1; \;\; n=100.
    Построить графики вида 1, 2, 3, сделать выводы о чувствительности критерия к зашумлению выборки.
Студент 1: a=1.
Студент 2: a=5.
Студент 3: a=10.
  • Исследовать устойчивость двухвыборочного критерия Стьюдента для независимых выборок к нарушению предположения о нормальности данных. x^n \sim N(\mu_1,1), y^n — смесь распределений N(\mu_2,1) и U[-a+\mu_2,a+\mu_2] с весами p и 1-p соответственно (при генерации выборки используется случайный датчик — если его значение не превосходит p, то добавляем в выборку элемент, взятый из нормального распределения, иначе — элемент, взятый из равномерного). Для разных значений параметров выборки генерируются независимо.
    H_0\,:\; \mu_1=\mu_2, \;\; H_1\,:\; \mu_1\neq\mu_2;
    \mu_1=0; \;\; p=0\,:\,0.02\,:\,1; \;\;  \mu_2=-1\,:\,0.05\,:\,1; \;\; n=100.
    Построить графики вида 1, 2, 3, сделать выводы о чувствительности критерия к зашумлению одной из выборок.
Студент 8: a=1.
Студент 9: a=5.
Студент 10: a=10.

Анализ чувствительности критериев к редактированию выборки

  • Известно, что исключение из выборки определённых наблюдений зачастую может достаточно сильно повлиять на результат анализа. Необходимо исследовать чувствительность одновыборочного критерия критерия Стьюдента к редактированию выборки.
    x^n \sim N(\mu,\sigma);
    H_0\,:\; \mu=0, \;\;\; H_1\,:\; \mu>0.
    При каждом значении параметра \mu генерируется выборка размера n, проводится проверка гипотезы H_0, затем по некоторому правилу из выборки исключается один из элементов, проверка гипотезы повторяется, затем исключается ещё один, и т.д. Обозначим за K максимальное число исключённых в таком процессе элементов. Построить графики вида 1, 2, 3, сделать выводы о чувствительности критерия к редактированию выборки.
Студент 4: n=100;\;\;K=50;\;\;\sigma=1;\;\;\mu=-1\,:\,0.01\,:\,1;\;\; на каждом шаге исключается максимальный элемент.
Студент 5: n=200;\;\;K=100;\;\;\sigma=5;\;\;\mu=-2\,:\,0.02\,:\,2;\;\; на каждом шаге исключается максимальный элемент.
Студент 6: n=100;\;\;K=50;\;\;\sigma=2;\;\;\mu=-2\,:\,0.02\,:\,2;\;\; на каждом шаге исключается минимальный элемент.
Студент 7: n=200;\;\;K=100;\;\;\sigma=5;\;\;\mu=-3\,:\,0.03\,:\,3;\;\; на каждом шаге исключается минимальный элемент.

Анализ поведения схожих критериев

Требуется исследовать поведение указанной пары статистических критериев, проверяющих одну и ту же гипотезу, сравнить мощность и достигаемые уровни значимости и сделать выводы о границах применимости критериев. Необходимо для каждого из критериев построить графики вида 1, 2, 3, и показать, в каких областях изменения параметров предпочтительнее использовать тот или иной критерий.

  • x^n \sim N(0,1),\;\;y^n \sim N(\mu,1);
    H_0\,:\; \mu=0, \;\;\; H_1\,:\; \mu\neq 0;
    \mu=-2\,:\,0.02\,:\,2;\;\; n=10\,:\,5\,:\,100.
Студент 11: двухвыборочный критерий Стьюдента для независимых выборок и критерий Уилкоксона-Манна-Уитни.
Студент 12: двухвыборочный критерий Стьюдента для связных выборок и критерий Уилкоксона для связных выборок.
Студент 13: двухвыборочные критерий Стьюдента для связных и независимых выборок.
Студент 14: критерий Уилкоксона-Манна-Уитни и медианный критерий.
Студент 15: критерий Уилкоксона для связных выборок и критерий знаков.
Личные инструменты