Статистический анализ данных (курс лекций, К.В.Воронцов)/2011
Материал из MachineLearning.
м (Новая: {{TOCright}} = Задание 1. Исследование свойств одномерных статистических критериев на модельных данных = Не...) |
м |
||
Строка 33: | Строка 33: | ||
Изображение:3000_pow.png|Значения эмпирических оценок мощности критерия при проведении 3000 экспериментов (<tex>\alpha=0.05</tex>). | Изображение:3000_pow.png|Значения эмпирических оценок мощности критерия при проведении 3000 экспериментов (<tex>\alpha=0.05</tex>). | ||
</gallery> | </gallery> | ||
- | Во-первых, заметим, что однократная генерация выборок даёт достаточно нестабильные результаты, поэтому | + | |
+ | Во-первых, заметим, что однократная генерация выборок даёт достаточно нестабильные результаты, поэтому и необходимо усреднение по большому числу экспериментов. | ||
+ | |||
Видно, что при достаточно большой разнице между средними и большом размере выборок наличие шума не мешает уверенно отклонять гипотезу однородности. Наоборот, когда разница между средними невелика (меньше 0.2-0.5 в зависимости от размера выборок), мощность близка к нулю, а средний достигаемый уровень значимости колеблется около 0.5, что логично, так как его распределение при справедливости нулевой гипотезы равномерно на <tex>[0,1]</tex>. | Видно, что при достаточно большой разнице между средними и большом размере выборок наличие шума не мешает уверенно отклонять гипотезу однородности. Наоборот, когда разница между средними невелика (меньше 0.2-0.5 в зависимости от размера выборок), мощность близка к нулю, а средний достигаемый уровень значимости колеблется около 0.5, что логично, так как его распределение при справедливости нулевой гипотезы равномерно на <tex>[0,1]</tex>. | ||
Строка 42: | Строка 44: | ||
</gallery> | </gallery> | ||
- | Видно, что наличие шума всё меньше влияет на работу критерия с ростом объёма выборок и разницы между их средними. Тем не менее, в некоторых областях потеря мощности из-за 10% зашумления может составлять до 20%, а средний достигаемый уровень значимости может быть выше на 0.1. | + | Видно, что наличие шума всё меньше влияет на работу критерия с ростом объёма выборок и разницы между их средними. Тем не менее, в некоторых областях изменения параметров потеря мощности из-за 10% зашумления может составлять до 20%, а средний достигаемый уровень значимости может быть выше на 0.1. |
Отметим, что приведённые количественные выводы справедливы только для шума рассматриваемой структуры. | Отметим, что приведённые количественные выводы справедливы только для шума рассматриваемой структуры. | ||
+ | |||
+ | == Задания== | ||
+ | === Анализ чувствительности критериев к редактированию выборки=== | ||
+ | Известно, что исключение из выборки определённых наблюдений зачастую может достаточно сильно повлиять на результат анализа. Необходимо исследовать чувствительность указанного критерия к редактированию выборки, построить графики, сделать выводы. | ||
+ | * Двухвыборочный [[критерий Стьюдента]] для связных выборок. | ||
+ | * [[Критерий Уилкоксона-Манна-Уитни]] для независимых выборок. | ||
+ | * [[Критерий Фишера]] для проверки равенства дисперсий. | ||
+ | |||
+ | === Устойчивость критериев к нарушению предположений === | ||
+ | === Анализ поведения схожих критериев === |
Версия 21:55, 29 сентября 2011
|
Задание 1. Исследование свойств одномерных статистических критериев на модельных данных
Необходимо провести исследование одного или нескольких классических критериев проверки статистических гипотез. Интерес представляет поведение достигаемого уровня значимости (p-value) как функции размера выборок и параметров распределения. В соответствии с индивидуальными параметрами задания необходимо указанным способом сгенерировать одну или несколько выборок из заданного распределения, выполнить проверку гипотезы при помощи соответствующего критерия, а затем многократно повторить эту процедуру для различных значений параметров. По результатам расчётов необходимо построить требуемые в задании графики, среди которых могут быть следующие:
- график зависимости достигаемого уровня значимости от значений параметров при однократном проведении эксперимента;
- график зависимости достигаемого уровня значимости одного или двух критериев от значений параметров, усреднённого по большому количеству повторений эксперимента (например, по 1000 повторений);
- график с эмпирическими оценками мощности одного или двух критериев для разных значений параметров.
В качестве оценки мощности принимается доля отвержений нулевой гипотезы среди всех проверок. То есть, если эксперимент повторялся раз для каждого набора значений параметра, и в из случаев гипотеза была отвергнута на некотором фиксированном уровне значимости (примем ), оценкой мощности будет отношение .
Необходимо сдать: выполненный в LaTex или Microsoft Word отчёт с описанием алгоритма, построенными графиками и выводами (объяснение полученных результатов моделирования, границы применимости критерия и т.д.), а также *.m-файл или R-скрипт, при запуске которого на экран выводятся графики, соответствующие имеющимся в отчёте.
Задание принимается до первого ноября.
Пример задания
Исследуем чувствительность классического двухвыборочного критерия Стьюдента для проверки гипотезы однородности против альтернативы сдвига при зашумлении выборок наблюдениями, взятыми из равномерного распределения.
— выборка длины из смеси стандартного нормального и равномерного распределений с весами и соответственно (при генерации выборки используется случайный датчик — если его значение не превосходит , то добавляем в выборку элемент, взятый из нормального распределения, иначе — элемент, взятый из равномерного).
— аналогичная выборка.
При каждом значении выборки для разных значений генерируются независимо.
Во-первых, заметим, что однократная генерация выборок даёт достаточно нестабильные результаты, поэтому и необходимо усреднение по большому числу экспериментов.
Видно, что при достаточно большой разнице между средними и большом размере выборок наличие шума не мешает уверенно отклонять гипотезу однородности. Наоборот, когда разница между средними невелика (меньше 0.2-0.5 в зависимости от размера выборок), мощность близка к нулю, а средний достигаемый уровень значимости колеблется около 0.5, что логично, так как его распределение при справедливости нулевой гипотезы равномерно на .
Чтобы оценить вклад зашумления выборок, оценим при всех значениях параметра мощность критерия и средний достигаемый уровень значимости на аналогичных выборках без шума и сравним результаты.
Видно, что наличие шума всё меньше влияет на работу критерия с ростом объёма выборок и разницы между их средними. Тем не менее, в некоторых областях изменения параметров потеря мощности из-за 10% зашумления может составлять до 20%, а средний достигаемый уровень значимости может быть выше на 0.1.
Отметим, что приведённые количественные выводы справедливы только для шума рассматриваемой структуры.
Задания
Анализ чувствительности критериев к редактированию выборки
Известно, что исключение из выборки определённых наблюдений зачастую может достаточно сильно повлиять на результат анализа. Необходимо исследовать чувствительность указанного критерия к редактированию выборки, построить графики, сделать выводы.
- Двухвыборочный критерий Стьюдента для связных выборок.
- Критерий Уилкоксона-Манна-Уитни для независимых выборок.
- Критерий Фишера для проверки равенства дисперсий.