Статистический анализ данных (курс лекций, К.В.Воронцов)/2011, ФУПМ

Материал из MachineLearning.

Перейти к: навигация, поиск

Содержание

Задание 1. Исследование свойств одномерных статистических методов на модельных данных

Необходимо провести исследование одной или нескольких классических статистических техник. В соответствии с индивидуальными параметрами задания необходимо указанным способом сгенерировать одну или несколько выборок из заданного распределения, применить исследуемые статистические методы, а затем многократно повторить эту процедуру для различных значений параметров. По результатам расчётов необходимо построить требуемые в задании графики и сделать выводы.

Пример задания

Исследуем поведение классического двухвыборочного критерия Стьюдента для проверки гипотезы однородности против альтернативы сдвига при разных значениях параметров.

x^n = (x_1,\ldots,x_n)\sim N(\mu_1,\sigma),\;\; y^n = (y_1,\ldots,y_n)\sim N(\mu_2,\sigma);

H_0\,:\; \mu_1=\mu_2,

H_1\,:\; \mu_1\neq\mu_2.

\sigma = 1; \;\;\; \mu_1=0; \;\;\; \mu_2=0\,:\,0.05\,:\,3; \;\;\;  n=5\,:\,1\,:\,50.

При каждом значении \mu_2 выборки для разных значений n генерируются независимо.

Графики 1 и 2 иллюстрируют зависимость достигаемого уровня значимости от размера выборки и среднего \mu_2. На графике 3 показана зависимость мощности критерия от параметров задачи; мощность в каждой точке оценивается как доля экспериментов, в которых гипотеза была отвергнута на уровне значимости \alpha=0.05.

  1. Видно, что при \mu_2=0 среднее значение достигаемого уровня значимости при многократном повторении эксперимента равно 0.5 для любого размера выборки. Это логично, так как при \mu_2=0 нулевая гипотеза справедлива, и достигаемый уровень значимости имеет равномерное распределение на [0,1].
  2. При n>20 и \mu_2>1 критерий имеет достаточную мощность, и нулевая гипотеза чаще всего отвергается.
  3. При размере выборки до 50 элементов и среднем второй выборки \mu_2<0.5 критерий практически не способен отклонить гипотезу однородности, мощность в этой области изменения параметров низка.
  4. При большой разнице между средними выборок (\mu_2>2)критерий достаточно уверенно отвергает гипотезу однородности даже на выборках небольшого размера (5-6 элементов).

Задания

Влияние связок на некоторые статистические критерии

Андерсона-Дарлинга, Уилкоксона (2 шт.), Шапиро-Уилка

Варианты ранжирования в критерии Зигеля-Тьюки

Сравнение методов построение доверительных интервалов

Точность аппроксимации распределения статистик критериев

проблема Беренца-Фишера, аппроксимация ранговых критериев, критерия знаков

Задание 2. Анализ реальных данных

Ниже приведены описания анализируемых данных и постановки задач. Сами данные каждый студент может получить по электронной почте сразу после сдачи первого задания. При проведении анализа можно пользоваться любыми доступными программными средствами. Необходимо предоставить подробный письменный отчёт по проведённому исследованию, содержащий выводы и описания каждого этапа анализа — используемые методы, обоснование их применимости, промежуточные результаты вычислений, графики. Помимо выводов, касающихся математических особенностей решения, необходимо включить в отчёт заключения, сформулированные в терминах предметной области, которые могли бы быть понятны гипотетическому заказчику-нематематику.

Ссылки

Личные инструменты