Статистический анализ данных (курс лекций, К.В.Воронцов)/2011, ФУПМ
Материал из MachineLearning.
|
Задание 1. Исследование свойств одномерных статистических методов на модельных данных
Необходимо провести исследование одной или нескольких классических статистических техник. В соответствии с индивидуальными параметрами задания необходимо указанным способом сгенерировать одну или несколько выборок из заданного распределения, применить исследуемые статистические методы, а затем многократно повторить эту процедуру для различных значений параметров. По результатам расчётов необходимо построить требуемые в задании графики и сделать выводы.
Пример задания
Исследуем поведение классического двухвыборочного критерия Стьюдента для проверки гипотезы однородности против альтернативы сдвига при разных значениях параметров.
При каждом значении выборки для разных значений генерируются независимо.
Графики 1 и 2 иллюстрируют зависимость достигаемого уровня значимости от размера выборки и среднего . На графике 3 показана зависимость мощности критерия от параметров задачи; мощность в каждой точке оценивается как доля экспериментов, в которых гипотеза была отвергнута на уровне значимости .
- Видно, что при среднее значение достигаемого уровня значимости при многократном повторении эксперимента равно 0.5 для любого размера выборки. Это логично, так как при нулевая гипотеза справедлива, и достигаемый уровень значимости имеет равномерное распределение на
- При и критерий имеет достаточную мощность, и нулевая гипотеза чаще всего отвергается.
- При размере выборки до 50 элементов и среднем второй выборки критерий практически не способен отклонить гипотезу однородности, мощность в этой области изменения параметров низка.
- При большой разнице между средними выборок критерий достаточно уверенно отвергает гипотезу однородности даже на выборках небольшого размера (5-6 элементов).
Задания
Устойчивость критериев к нарушению предположений
- Исследовать устойчивость двухвыборочного критерия Стьюдента для независимых выборок к нарушению предположения о нормальности данных.
— выборка длины из смеси нормального и равномерного распределений с весами и соответственно (при генерации выборки используется случайный датчик — если его значение не превосходит , то добавляем в выборку элемент, взятый из нормального распределения, иначе — элемент, взятый из равномерного).
— аналогичная выборка.
Построить графики вида 1, 2, 3, сделать выводы о чувствительности критерия к зашумлению одной из выборок.
- Кононенко Даниил:
- Голкин Александр:
- Завадский Глеб:
- Чугунов Кирилл:
- Корниенко Алексей:
- Кузнецов Михаил:
- Исследовать устойчивость критерия Фишера для проверки равенства дисперсий к нарушению предположения о нормальности выборок.
— выборка длины из смеси распределений и с весами и соответственно (при генерации выборки используется случайный датчик — если его значение не превосходит , то добавляем в выборку элемент, взятый из нормального распределения, иначе — элемент, взятый из равномерного).
— аналогичная выборка.
Построить графики вида 1, 2, 3, сделать выводы о чувствительности критерия к зашумлению.
- Иванов Николай:
- Рубцов Александр:
- Рукина Дарья:
- Савгиров Арш:
- Спиридонов Роман:
- Стукалюк Владимир:
Влияние связок на поведение статистических критериев
- Исследовать влияние совпадающих элементов выборки на статистические критерии, проверяющие гипотезу нормальности.
распределена нормально; распределена по какому-то другому закону.
Для генерации выборки со связками может использоваться округление элементов выборки, либо следующая процедура:
- генерируется выборка размера из исходного распределения:
- в вариационном ряду выборки выбираются непересекающихся пар элементов , лежащих ближе всего друг к другу;
- для всех выбранных пар элементы выборки и заменяются их средним.
- Сунгуров Дмитрий: критерий Андерсона-Дарлинга, указанная процедура порождения связок,
- Животовский Никита: критерий Шапиро-Уилка, указанная процедура порождения связок,
- Мафусалов Александр: критерий Андерсона-Дарлинга, округление элементов выборки до десятых.
- Сечин Павел: критерий Шапиро-Уилка, округление элементов выборки до десятых.
- Быстрый Роман: критерий Андерсона-Дарлинга, округление элементов выборки до 0,5.
- Савинов Николай: критерий Шапиро-Уилка, округление элементов выборки до 0,5.
Литература
Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006.