Статистический анализ данных (курс лекций, К.В.Воронцов)/2009

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Задание 1)
Строка 1: Строка 1:
= Задание 1 =
= Задание 1 =
Необходимо провести исследование одного из классических критериев проверки статистических гипотез. Интерес представляет поведение
Необходимо провести исследование одного из классических критериев проверки статистических гипотез. Интерес представляет поведение
-
[[Достигаемый уровень значимости|достигаемого уровня значимости]] (p-value) как функции от размера выборок и параметров распределения. В соответствии с индивидуальными параметрами задания необходимо сгенерировать одну или несколько выборок из указанного распределения, выполнить [[Проверка статистических гипотез|проверку гипотезы]] при помощи соответствующего критерия, а затем многократно повторить эту процедуру для различных значений параметров. Полученные значения достигаемых уровней значимости наносятся на график.
+
[[Достигаемый уровень значимости|достигаемого уровня значимости]] (p-value) как функции от размера выборок и параметров распределения. В соответствии с индивидуальными параметрами задания необходимо сгенерировать одну или несколько выборок из указанного распределения, выполнить [[Проверка статистических гипотез|проверку гипотезы]] при помощи соответствующего критерия, а затем многократно повторить эту процедуру для различных значений параметров. При этом, в зависимости от индивидуальных особенностей задания, выборки могут как генерироваться заново для каждого значения объёма выборки <tex>n</tex>, так и образовываться путём добавления одного элемента к уже имеющейся выборке объёма <tex>n-1</tex>. По результатам расчётов необходимо построить следующие графики:
 +
 
 +
* график зависимости достигаемого уровня значимости от значений параметров при однократном проведении эксперимента (1 балл);
 +
* график зависимости достигаемого уровня значимости от значений параметров, усреднённого по нескольким десяткам экспериментов (+1 балл);
 +
* график с эмпирическими оценками [[Мощность критерия|мощности критерия]] для разных значений параметров (+1 балл).
 +
 
 +
В качестве оценки мощности принимается доля отвержений нулевой гипотезы среди всех проверок. То есть, если эксперимент повторялся <tex>k</tex> раз для каждого набора значений параметра, и в <tex>m</tex> из <tex>k</tex> случаев гипотеза была отвергнута, оценкой мощности будет отношение <tex>m/k</tex>.
 +
 
== Пример выполнения задания ==
== Пример выполнения задания ==
Исследуем поведение классического двухвыборочного [[Критерий Стьюдента|критерия Стьюдента]] для проверки гипотезы однородности против [[Гипотеза сдвига|альтернативы сдвига]].
Исследуем поведение классического двухвыборочного [[Критерий Стьюдента|критерия Стьюдента]] для проверки гипотезы однородности против [[Гипотеза сдвига|альтернативы сдвига]].
Строка 14: Строка 21:
<tex>\sigma = 1; \;\;\; \mu_1=0; \;\;\; \mu_2=0\,:\,0,05\,:\,3; \;\;\; n=5\,:\,1\,:\,50.</tex>
<tex>\sigma = 1; \;\;\; \mu_1=0; \;\;\; \mu_2=0\,:\,0,05\,:\,3; \;\;\; n=5\,:\,1\,:\,50.</tex>
-
График значений достигаемого уровня значимости:
+
Выборки для разных значений <tex>n</tex> генерируются независимо.
 +
 
 +
График значений достигаемого уровня значимости при однократной генерации выборок:
[[Изображение:Answer.jpg|600px]]
[[Изображение:Answer.jpg|600px]]

Версия 14:16, 24 сентября 2009

Задание 1

Необходимо провести исследование одного из классических критериев проверки статистических гипотез. Интерес представляет поведение достигаемого уровня значимости (p-value) как функции от размера выборок и параметров распределения. В соответствии с индивидуальными параметрами задания необходимо сгенерировать одну или несколько выборок из указанного распределения, выполнить проверку гипотезы при помощи соответствующего критерия, а затем многократно повторить эту процедуру для различных значений параметров. При этом, в зависимости от индивидуальных особенностей задания, выборки могут как генерироваться заново для каждого значения объёма выборки n, так и образовываться путём добавления одного элемента к уже имеющейся выборке объёма n-1. По результатам расчётов необходимо построить следующие графики:

  • график зависимости достигаемого уровня значимости от значений параметров при однократном проведении эксперимента (1 балл);
  • график зависимости достигаемого уровня значимости от значений параметров, усреднённого по нескольким десяткам экспериментов (+1 балл);
  • график с эмпирическими оценками мощности критерия для разных значений параметров (+1 балл).

В качестве оценки мощности принимается доля отвержений нулевой гипотезы среди всех проверок. То есть, если эксперимент повторялся k раз для каждого набора значений параметра, и в m из k случаев гипотеза была отвергнута, оценкой мощности будет отношение m/k.

Пример выполнения задания

Исследуем поведение классического двухвыборочного критерия Стьюдента для проверки гипотезы однородности против альтернативы сдвига. x^n = (x_1,\ldots,x_n)\sim N(\mu_1,\sigma),\;\; y^n = (y_1,\ldots,y_n)\sim N(\mu_2,\sigma);

H_0\,:\; \mu_1=\mu_2,

H_1\,:\; \mu_1\neq\mu_2.

Параметры задачи принимают следующие значения:

\sigma = 1; \;\;\; \mu_1=0; \;\;\; \mu_2=0\,:\,0,05\,:\,3; \;\;\;  n=5\,:\,1\,:\,50.

Выборки для разных значений n генерируются независимо.

График значений достигаемого уровня значимости при однократной генерации выборок:

Индивидуальные параметры задания

Алимбаев Данияр

Аманжолов Рустем

Ахламченкова Ольга

Безродный Богдан

Вишняков Святослав

Гикал Александр

Голодов Валентин

Гордеев Дмитрий

Гуков Алексей

Двойнев Александр

Дерябин Василий

Джумабекова Айнагуль

Дзыба Дмитрий

Задонский Дмитрий

Задонский Максим

Карпинская Алина

Коликова Екатерина

Ломакин Василий

Ломакина-Румянцева Екатерина

Мягков Артем

Найденов Никита

Нарышкин Андрей

Одинокова Евгения

Осокин Антон

Пасконова Ольга

Решетняк Илья

Толстихин Илья

Янгиров Ильдар

Личные инструменты