Статистический анализ данных (курс лекций, К.В.Воронцов)/2011, ФУПМ

Материал из MachineLearning.

Перейти к: навигация, поиск

Содержание

Задание 1. Исследование свойств одномерных статистических методов на модельных данных

Необходимо провести исследование одной или нескольких классических статистических техник. В соответствии с индивидуальными параметрами задания необходимо указанным способом сгенерировать одну или несколько выборок из заданного распределения, применить исследуемые статистические методы, а затем многократно повторить эту процедуру для различных значений параметров. По результатам расчётов необходимо построить требуемые в задании графики и сделать выводы.

Пример задания

Исследуем поведение классического двухвыборочного критерия Стьюдента для проверки гипотезы однородности против альтернативы сдвига при разных значениях параметров.

x^n = (x_1,\ldots,x_n)\sim N(\mu_1,\sigma),\;\; y^n = (y_1,\ldots,y_n)\sim N(\mu_2,\sigma);

H_0\,:\; \mu_1=\mu_2,

H_1\,:\; \mu_1\neq\mu_2.

\sigma = 1; \;\;\; \mu_1=0; \;\;\; \mu_2=0\,:\,0.05\,:\,3; \;\;\;  n=5\,:\,1\,:\,50.

При каждом значении \mu_2 выборки для разных значений n генерируются независимо.

Графики 1 и 2 иллюстрируют зависимость достигаемого уровня значимости от размера выборки и среднего \mu_2. На графике 3 показана зависимость мощности критерия от параметров задачи; мощность в каждой точке оценивается как доля экспериментов, в которых гипотеза была отвергнута на уровне значимости \alpha=0.05.

  1. Видно, что при \mu_2=0 среднее значение достигаемого уровня значимости при многократном повторении эксперимента равно 0.5 для любого размера выборки. Это логично, так как при \mu_2=0 нулевая гипотеза справедлива, и достигаемый уровень значимости имеет равномерное распределение на [0,1].
  2. При n>20 и \mu_2>1 критерий имеет достаточную мощность, и нулевая гипотеза чаще всего отвергается.
  3. При размере выборки до 50 элементов и среднем второй выборки \mu_2<0.5 критерий практически не способен отклонить гипотезу однородности, мощность в этой области изменения параметров низка.
  4. При большой разнице между средними выборок (\mu_2>2)критерий достаточно уверенно отвергает гипотезу однородности даже на выборках небольшого размера (5-6 элементов).

Задания

Влияние связок на некоторые статистические критерии

Исследовать влияние совпадающих элементов выборки на поведение статистических критериев.

x^n\sim N\left(0,1\right)
H_0\,:\;x^n\sim N(0,1) Андерсона-Дарлинга, Уилкоксона (2 шт.), Шапиро-Уилка

Устойчивость критериев к нарушению предположений

  • Исследовать устойчивость критерия Фишера для проверки равенства дисперсий к нарушению предположения о нормальности выборок.

x^n \sim p_1\cdot N(0,\sigma_1)+ \left(1-p_1\right)\cdot U\left[-a,a\right] — выборка длины n из смеси распределений N(0,\sigma_1) и U[-a,a] с весами p_1 и 1-p_1 соответственно (при генерации выборки используется случайный датчик — если его значение не превосходит p_1, то добавляем в выборку элемент, взятый из нормального распределения, иначе — элемент, взятый из равномерного).
y^n \sim p_2\cdot N(0,\sigma_2)+ \left(1-p_2\right)\cdot U\left[-a,a\right] — аналогичная выборка.
H_0\,:\; \sigma_1=\sigma_2, \;\; H_1\,:\; \sigma_1\neq\sigma_2.
\sigma_1=1, \;\; \sigma_2=0.1:0.1:4.
Построить графики вида 1, 2, 3, сделать выводы о чувствительности критерия к зашумлению.

Студент 1: p_1=0.8; \;\; p_2=1, \;\; a=1; \;\; n=20:5:200.
Студент 2: p_1=0.9; \;\; p_2=1, \;\; a=5; \;\; n=20:5:200.
Студент 3: p_1=0.95; \;\; p_2=1, \;\; a=10; \;\; n=20:5:200.
Студент 4: p_1=p_2=0.8; \;\; a=1; \;\; n=20:5:200.
Студент 5: p_1=p_2=0.9; \;\; a=5; \;\; n=20:5:200.
Студент 6: p_1=p_2=0.95; \;\; a=10; \;\; n=20:5:200.
Студент 7: p_1=p_2=0:0.01:1; \;\; a=1; \;\; n=100.
Студент 8: p_1=p_2=0:0.01:1; \;\; a=5; \;\; n=100.

Варианты ранжирования в критерии Зигеля-Тьюки

Сравнение методов построение доверительных интервалов

Точность аппроксимации распределения статистик критериев

проблема Беренца-Фишера, аппроксимация ранговых критериев, критерия знаков

Литература

Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006.

Ссылки

Личные инструменты