Статистический анализ данных (курс лекций, К.В.Воронцов)/2011, ФУПМ

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
м (Влияние связок на поведение статистических критериев)
м (Задания)
Строка 58: Строка 58:
* Исследовать влияние совпадающих элементов выборки на статистические критерии, проверяющие гипотезу нормальности.
* Исследовать влияние совпадающих элементов выборки на статистические критерии, проверяющие гипотезу нормальности.
<tex>H_0\,:\; x^n</tex> распределена нормально; <tex>H_1\,:\; x^n</tex> распределена по какому-то другому закону. <br>
<tex>H_0\,:\; x^n</tex> распределена нормально; <tex>H_1\,:\; x^n</tex> распределена по какому-то другому закону. <br>
 +
<tex>n=20\,:\,5\,:\,200.</tex> <br>
Для генерации выборки со связками может использоваться округление элементов выборки, либо следующая процедура:
Для генерации выборки со связками может использоваться округление элементов выборки, либо следующая процедура:
-
# генерируется выборка размера <tex>n</tex> из исходного распределения: <tex>x^n\sim p\cdot N\left(0,1\right)+\left(1-p\right)U\left[a,b\right];</tex>
+
# генерируется выборка размера <tex>n</tex> из смеси нормального и равномерного распределений с весами <tex>p</tex> и <tex>1-p</tex>: <tex>x^n\sim p\cdot N\left(0,1\right)+\left(1-p\right)\cdot U\left[a,b\right]</tex> (при генерации выборки используется случайный датчик — если его значение не превосходит <tex>p</tex>, то добавляем в выборку элемент, взятый из нормального распределения, иначе — элемент, взятый из равномерного);
# в вариационном ряду выборки <tex>x^n_{\left(i\right)}</tex> выбираются <tex>k</tex> непересекающихся пар элементов <tex>\left(x_{\left(i\right)}, x_{\left(i+1\right)}\right)</tex>, лежащих ближе всего друг к другу;
# в вариационном ряду выборки <tex>x^n_{\left(i\right)}</tex> выбираются <tex>k</tex> непересекающихся пар элементов <tex>\left(x_{\left(i\right)}, x_{\left(i+1\right)}\right)</tex>, лежащих ближе всего друг к другу;
# для всех <tex>k</tex> выбранных пар элементы выборки <tex>x_{\left(i\right)}</tex> и <tex>x_{\left(i+1\right)</tex> заменяются их средним.
# для всех <tex>k</tex> выбранных пар элементы выборки <tex>x_{\left(i\right)}</tex> и <tex>x_{\left(i+1\right)</tex> заменяются их средним.
-
<tex>n=20\,:\,5\,:\,200, \;\; </tex>
+
Построить графики вида 1, 2, 3, сделать выводы о чувствительности критерия к наличию связок.
-
 
+
::Сунгуров Дмитрий: [[критерий Андерсона-Дарлинга]], указанная процедура порождения связок, <tex>k=\frac{n}{3}, \;\;p=0\,:\,0.01\,:\,:1, \;\; -a=b=3.</tex>
-
 
+
::Животовский Никита: [[критерий Шапиро-Уилка]], указанная процедура порождения связок, <tex>k=\frac{n}{2}, \;\;p=0\,:\,0.01\,:\,:1, \;\; -a=b=3.</tex>
-
::Сунгуров Дмитрий: [[критерий Андерсона-Дарлинга]], указанная процедура порождения связок, <tex>k=\frac{k}{3}.</tex>
+
::Мафусалов Александр: [[критерий Андерсона-Дарлинга]], округление элементов выборки до десятых, <tex>p=0\,:\,0.01\,:\,:1, \;\; a=-1, \;\; b=1.5.</tex>
-
::Животовский Никита: [[критерий Шапиро-Уилка]], указанная процедура порождения связок, <tex>k=0:1:\frac{k}{2}.</tex>
+
::Сечин Павел: [[критерий Шапиро-Уилка]], округление элементов выборки до десятых, <tex>p=0\,:\,0.01\,:\,:1, \;\; a=-2, \;\; b=3.</tex>
-
::Мафусалов Александр: [[критерий Андерсона-Дарлинга]], округление элементов выборки до десятых.
+
-
::Сечин Павел: [[критерий Шапиро-Уилка]], округление элементов выборки до десятых.
+
-
::Быстрый Роман: [[критерий Андерсона-Дарлинга]], округление элементов выборки до 0,5.
+
-
::Савинов Николай: [[критерий Шапиро-Уилка]], округление элементов выборки до 0,5.
+
= Литература =
= Литература =

Версия 16:41, 8 марта 2011

Содержание

Задание 1. Исследование свойств одномерных статистических методов на модельных данных

Необходимо провести исследование одной или нескольких классических статистических техник. В соответствии с индивидуальными параметрами задания необходимо указанным способом сгенерировать одну или несколько выборок из заданного распределения, применить исследуемые статистические методы, а затем многократно повторить эту процедуру для различных значений параметров. По результатам расчётов необходимо построить требуемые в задании графики и сделать выводы.

Пример задания

Исследуем поведение классического двухвыборочного критерия Стьюдента для проверки гипотезы однородности против альтернативы сдвига при разных значениях параметров.

x^n = (x_1,\ldots,x_n)\sim N(\mu_1,\sigma),\;\; y^n = (y_1,\ldots,y_n)\sim N(\mu_2,\sigma);

H_0\,:\; \mu_1=\mu_2,

H_1\,:\; \mu_1\neq\mu_2.

\sigma = 1; \;\;\; \mu_1=0; \;\;\; \mu_2=0\,:\,0.05\,:\,3; \;\;\;  n=5\,:\,1\,:\,50.

При каждом значении \mu_2 выборки для разных значений n генерируются независимо.

Графики 1 и 2 иллюстрируют зависимость достигаемого уровня значимости от размера выборки и среднего \mu_2. На графике 3 показана зависимость мощности критерия от параметров задачи; мощность в каждой точке оценивается как доля экспериментов, в которых гипотеза была отвергнута на уровне значимости \alpha=0.05.

  1. Видно, что при \mu_2=0 среднее значение достигаемого уровня значимости при многократном повторении эксперимента равно 0.5 для любого размера выборки. Это логично, так как при \mu_2=0 нулевая гипотеза справедлива, и достигаемый уровень значимости имеет равномерное распределение на [0,1].
  2. При n>20 и \mu_2>1 критерий имеет достаточную мощность, и нулевая гипотеза чаще всего отвергается.
  3. При размере выборки до 50 элементов и среднем второй выборки \mu_2<0.5 критерий практически не способен отклонить гипотезу однородности, мощность в этой области изменения параметров низка.
  4. При большой разнице между средними выборок (\mu_2>2)критерий достаточно уверенно отвергает гипотезу однородности даже на выборках небольшого размера (5-6 элементов).

Задания

Устойчивость критериев к нарушению предположений

  • Исследовать устойчивость двухвыборочного критерия Стьюдента для независимых выборок к нарушению предположения о нормальности данных.

x^n \sim p_1\cdot N(\mu_1,1)+ \left(1-p_1\right)\cdot U\left[-a+\mu_1,a+\mu_1\right] — выборка длины n из смеси нормального N(\mu_1,1) и равномерного U\left[-a+\mu_1,a+\mu_1\right] распределений с весами p_1 и 1-p_1 соответственно (при генерации выборки используется случайный датчик — если его значение не превосходит p_1, то добавляем в выборку элемент, взятый из нормального распределения, иначе — элемент, взятый из равномерного).
y^n \sim p_2\cdot N(\mu_2,1)+ \left(1-p_2\right)\cdot U\left[-a+\mu_2,a+\mu_2\right] — аналогичная выборка.
H_0\,:\; \mu_1=\mu_2, \;\; H_1\,:\; \mu_1\neq\mu_2;
\mu_1=0; \;\; \mu_2=-1\,:\,0.05\,:\,1.
Построить графики вида 1, 2, 3, сделать выводы о чувствительности критерия к зашумлению одной из выборок.

Кононенко Даниил: p_1=0.8; \;\; p_2=1, \;\; a=1; \;\; n=15\,:\,5\,:\,200.
Голкин Александр: p_1=0.9; \;\; p_2=1, \;\; a=5; \;\; n=15\,:\,5\,:\,200.
Завадский Глеб: p_1=p_2=0.8; \;\; a=1; \;\; n=15\,:\,5\,:\,200.
Чугунов Кирилл: p_1=p_2=0.9; \;\; a=5; \;\; n=15\,:\,5\,:\,200.
Корниенко Алексей: p_1=p_2=0\,:\,0.01\,:\,1; \;\; a=1; \;\; n=150.
Кузнецов Михаил: p_1=p_2=0\,:\,0.01\,:\,1; \;\; a=5; \;\; n=100.
  • Исследовать устойчивость критерия Фишера для проверки равенства дисперсий к нарушению предположения о нормальности выборок.

x^n \sim p_1\cdot N(0,\sigma_1)+ \left(1-p_1\right)\cdot U\left[-a,a\right] — выборка длины n из смеси распределений N(0,\sigma_1) и U[-a,a] с весами p_1 и 1-p_1 соответственно (при генерации выборки используется случайный датчик — если его значение не превосходит p_1, то добавляем в выборку элемент, взятый из нормального распределения, иначе — элемент, взятый из равномерного).
y^n \sim p_2\cdot N(0,\sigma_2)+ \left(1-p_2\right)\cdot U\left[-a,a\right] — аналогичная выборка.
H_0\,:\; \sigma_1=\sigma_2, \;\; H_1\,:\; \sigma_1\neq\sigma_2.
\sigma_1=1, \;\; \sigma_2=0.1\,:\,0.1\,:\,4.
Построить графики вида 1, 2, 3, сделать выводы о чувствительности критерия к зашумлению.

Иванов Николай: p_1=0.8; \;\; p_2=1, \;\; a=1; \;\; n=15\,:\,5\,:\,200.
Рубцов Александр: p_1=0.9; \;\; p_2=1, \;\; a=5; \;\; n=15\,:\,5\,:\,200.
Рукина Дарья: p_1=p_2=0.8; \;\; a=1; \;\; n=15\,:\,5\,:\,200.
Савгиров Арш: p_1=p_2=0.9; \;\; a=5; \;\; n=15\,:\,5\,:\,200.
Спиридонов Роман: p_1=p_2=0\,:\,0.01\,:\,1; \;\; a=1; \;\; n=150.
Стукалюк Владимир: p_1=p_2=0\,:\,0.01\,:\,1; \;\; a=5; \;\; n=100.

Влияние связок на поведение статистических критериев

  • Исследовать влияние совпадающих элементов выборки на статистические критерии, проверяющие гипотезу нормальности.

H_0\,:\; x^n распределена нормально; H_1\,:\; x^n распределена по какому-то другому закону.
n=20\,:\,5\,:\,200.
Для генерации выборки со связками может использоваться округление элементов выборки, либо следующая процедура:

  1. генерируется выборка размера n из смеси нормального и равномерного распределений с весами p и 1-p: x^n\sim p\cdot N\left(0,1\right)+\left(1-p\right)\cdot U\left[a,b\right] (при генерации выборки используется случайный датчик — если его значение не превосходит p, то добавляем в выборку элемент, взятый из нормального распределения, иначе — элемент, взятый из равномерного);
  2. в вариационном ряду выборки x^n_{\left(i\right)} выбираются k непересекающихся пар элементов \left(x_{\left(i\right)}, x_{\left(i+1\right)}\right), лежащих ближе всего друг к другу;
  3. для всех k выбранных пар элементы выборки x_{\left(i\right)} и x_{\left(i+1\right) заменяются их средним.

Построить графики вида 1, 2, 3, сделать выводы о чувствительности критерия к наличию связок.

Сунгуров Дмитрий: критерий Андерсона-Дарлинга, указанная процедура порождения связок, k=\frac{n}{3}, \;\;p=0\,:\,0.01\,:\,:1, \;\; -a=b=3.
Животовский Никита: критерий Шапиро-Уилка, указанная процедура порождения связок, k=\frac{n}{2}, \;\;p=0\,:\,0.01\,:\,:1, \;\; -a=b=3.
Мафусалов Александр: критерий Андерсона-Дарлинга, округление элементов выборки до десятых, p=0\,:\,0.01\,:\,:1, \;\; a=-1, \;\; b=1.5.
Сечин Павел: критерий Шапиро-Уилка, округление элементов выборки до десятых, p=0\,:\,0.01\,:\,:1, \;\; a=-2, \;\; b=3.

Литература

Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006.

Ссылки

Личные инструменты