Статистический анализ данных (курс лекций, К.В.Воронцов)/2011, ФУПМ

Материал из MachineLearning.

Перейти к: навигация, поиск

Содержание

Задание 1. Исследование свойств одномерных статистических критериев на модельных данных

Необходимо провести исследование одного из классических критериев проверки статистических гипотез. Интерес представляет поведение достигаемого уровня значимости (p-value) как функции размера выборок и параметров распределения. В соответствии с индивидуальными параметрами задания необходимо указанным способом сгенерировать одну или несколько выборок из заданного распределения, выполнить проверку гипотезы при помощи соответствующего критерия, а затем многократно повторить эту процедуру для различных значений параметров. По результатам расчётов необходимо построить следующие графики:

  1. график зависимости достигаемого уровня значимости от значений параметров при однократном проведении эксперимента;
  2. график зависимости достигаемого уровня значимости от значений параметров, усреднённого по большому количеству повторений эксперимента (например, по 100, 500, 1000 повторений — чем больше, тем лучше);
  3. график с эмпирическими оценками мощности критерия для разных значений параметров.

В качестве оценки мощности принимается доля отвержений нулевой гипотезы среди всех проверок. То есть, если эксперимент повторялся k раз для каждого набора значений параметра, и в m из k случаев гипотеза была отвергнута на некотором фиксированном уровне значимости \alpha (примем \alpha=0.05), оценкой мощности будет отношение m/k.

Необходимо сдать: отчёт с описанием алгоритма, построенными графиками и выводами (объяснение полученных результатов моделирования, границы применимости критерия и т.д.), а также файл с текстом программы на использованном языке (Matlab, R, и т.д.), при выполнении которой проводятся указанные в задаче вычисления и на экран выводятся графики, соответствующие имеющимся в отчёте.

Задание принимается до девятого апреля.

Пример задания

Исследуем поведение классического двухвыборочного критерия Стьюдента для проверки гипотезы однородности против альтернативы сдвига при разных значениях параметров.

x^n = (x_1,\ldots,x_n)\sim N(\mu_1,\sigma),\;\; y^n = (y_1,\ldots,y_n)\sim N(\mu_2,\sigma);

H_0\,:\; \mu_1=\mu_2,

H_1\,:\; \mu_1\neq\mu_2.

\sigma = 1; \;\;\; \mu_1=0; \;\;\; \mu_2=0\,:\,0.05\,:\,3; \;\;\;  n=5\,:\,1\,:\,50.

При каждом значении \mu_2 выборки для разных значений n генерируются независимо.

Графики 1 и 2 иллюстрируют зависимость достигаемого уровня значимости от размера выборки и среднего \mu_2. На графике 3 показана зависимость мощности критерия от параметров задачи; мощность в каждой точке оценивается как доля экспериментов, в которых гипотеза была отвергнута на уровне значимости \alpha=0.05.

  1. Видно, что при \mu_2=0 среднее значение достигаемого уровня значимости при многократном повторении эксперимента равно 0.5 для любого размера выборки. Это логично, так как при \mu_2=0 нулевая гипотеза справедлива, и достигаемый уровень значимости имеет равномерное распределение на [0,1].
  2. При n>20 и \mu_2>1 критерий имеет достаточную мощность, и нулевая гипотеза чаще всего отвергается.
  3. При размере выборки до 50 элементов и среднем второй выборки \mu_2<0.5 критерий практически не способен отклонить гипотезу однородности, мощность в этой области изменения параметров низка.
  4. При большой разнице между средними выборок (\mu_2>2)критерий достаточно уверенно отвергает гипотезу однородности даже на выборках небольшого размера (5-6 элементов).

Задания

Устойчивость критериев к нарушению предположений

Исследовать поведение параметрических критериев, предполагающих нормальность данных, при зашумлении выборок наблюдениями, взятыми из равномерного распределения. Построить графики вида 1, 2, 3, сделать выводы о чувствительности критерия к зашумлению.

x^n \sim p_1\cdot N(\mu_1,1)+ \left(1-p_1\right)\cdot U\left[-a+\mu_1,a+\mu_1\right] — выборка длины n из смеси нормального N(\mu_1,1) и равномерного U\left[-a+\mu_1,a+\mu_1\right] распределений с весами p_1 и 1-p_1 соответственно (при генерации выборки используется случайный датчик — если его значение не превосходит p_1, то добавляем в выборку элемент, взятый из нормального распределения, иначе — элемент, взятый из равномерного).
y^n \sim p_2\cdot N(\mu_2,1)+ \left(1-p_2\right)\cdot U\left[-a+\mu_2,a+\mu_2\right] — аналогичная выборка.
H_0\,:\; \mu_1=\mu_2, \;\; H_1\,:\; \mu_1\neq\mu_2;
\mu_1=0; \;\; \mu_2=-2\,:\,0.01\,:\,2.

Студент 1: p_1=0.8, \;\; p_2=1, \;\; a=1, \;\; n=15\,:\,5\,:\,200.
Студент 2: p_1=0.9, \;\; p_2=1, \;\; a=5, \;\; n=15\,:\,5\,:\,200.
Студент 3: p_1=p_2=0.8, \;\; a=1, \;\; n=15\,:\,5\,:\,200.
Студент 4: p_1=p_2=0.9, \;\; a=5, \;\; n=15\,:\,5\,:\,200.
Студент 5: p_1=p_2=0\,:\,0.01\,:\,1, \;\; a=1, \;\; n=150.
Студент 6: p_1=p_2=0\,:\,0.01\,:\,1, \;\; a=5, \;\; n=100.

x^n \sim p_1\cdot N(0,\sigma_1)+ \left(1-p_1\right)\cdot U\left[-a,a\right] — выборка длины n из смеси нормального N(0,\sigma_1) и равномерного U[-a,a] распределений с весами p_1 и 1-p_1 соответственно (при генерации выборки используется случайный датчик — если его значение не превосходит p_1, то добавляем в выборку элемент, взятый из нормального распределения, иначе — элемент, взятый из равномерного).
y^n \sim p_2\cdot N(0,\sigma_2)+ \left(1-p_2\right)\cdot U\left[-a,a\right] — аналогичная выборка.
H_0\,:\; \sigma_1=\sigma_2, \;\; H_1\,:\; \sigma_1\neq\sigma_2.
\sigma_1=1, \;\; \sigma_2=0.1\,:\,0.05\,:\,4.

Студент 7: p_1=0.8, \;\; p_2=1, \;\; a=1, \;\; n=15\,:\,5\,:\,200.
Студент 8: p_1=0.9, \;\; p_2=1, \;\; a=5, \;\; n=15\,:\,5\,:\,200.
Студент 9: p_1=p_2=0.8, \;\; a=1, \;\; n=15\,:\,5\,:\,200.
Студент 10: p_1=p_2=0.9, \;\; a=5, \;\; n=15\,:\,5\,:\,200.
Студент 11: p_1=p_2=0\,:\,0.01\,:\,1, \;\; a=1, \;\; n=150.
Студент 12: p_1=p_2=0\,:\,0.01\,:\,1, \;\; a=5, \;\; n=100.

Влияние связок на поведение статистических критериев

Многие статистические критерии неявно предполагают, что выборка извлечена из абсолютно непрерывного распределения, что значит, что вероятность наличия в ней одинаковых элементов равна нулю. Необходимо исследовать поведение такого критерия в случае наличия в выборке совпадающих значений. Построить графики вида 1, 2, 3, сделать выводы о чувствительности критерия к наличию связок.

Для генерации выборки со связками может использоваться округление элементов выборки, либо следующая процедура:

  1. генерируется выборка x^n размера n из указанного в задаче распределения;
  2. в вариационном ряду выборки x^n_{\left(i\right)} выбираются k непересекающихся пар элементов \left(x_{\left(i\right)}, x_{\left(i+1\right)}\right), лежащих ближе всего друг к другу;
  3. для всех k выбранных пар элементы выборки x_{\left(i\right)} и x_{\left(i+1\right) заменяются их средним.
  • Статистические критерии, проверяющие гипотезу нормальности.

x^n\sim p\cdot N\left(0,1\right)+\left(1-p\right)\cdot U\left[a,b\right] — выборка длины n из смеси нормального N\left(0,1\right) и равномерного U\left[a,b\right] распределений с весами p и 1-p соответственно (при генерации выборки используется случайный датчик — если его значение не превосходит p, то добавляем в выборку элемент, взятый из нормального распределения, иначе — элемент, взятый из равномерного);
H_0\,:\; x^n распределена нормально; H_1\,:\; x^n распределена по какому-то другому закону.
n=20\,:\,5\,:\,200.

Студент 13: критерий Андерсона-Дарлинга, указанная процедура порождения связок, k=\frac{n}{3}, \;\;p=0\,:\,0.01\,:\,1, \;\; -a=b=3.
Студент 14: критерий Шапиро-Уилка, указанная процедура порождения связок, k=\frac{n}{2}, \;\;p=0\,:\,0.01\,:\,1, \;\; -a=b=3.
Студент 15: критерий Андерсона-Дарлинга, округление элементов выборки до десятых, p=0\,:\,0.01\,:\,1, \;\; a=-1, \;\; b=1.5.
Студент 16: критерий Шапиро-Уилка, округление элементов выборки до десятых, p=0\,:\,0.01\,:\,1, \;\; a=-2, \;\; b=3.

x^n \sim N(0,1),\;\;y^n \sim N(\mu,1);
H_0\,:\; \mu=0, \;\;\; H_1\,:\; \mu\neq 0;
\mu=0\,:\,0.01\,:\,2.

Студент 17: элементы обеих выборок округляются до десятых, n=10\,:\,5\,:\,200.
Студент 18: элементы обеих выборок округляются до 0.5, n=10\,:\,5\,:\,200.
Студент 19: указанная процедура порождения связок (в обеих выборках), n=10\,:\,5\,:\,200, \;\; k=\frac{n}{3}.
Студент 20: указанная процедура порождения связок (в обеих выборках), n=50, \;\; k=0\,:\,1\,:\,30.

Анализ чувствительности критериев к редактированию выборки

Известно, что исключение из выборки определённых наблюдений зачастую может достаточно сильно повлиять на результат анализа. Необходимо исследовать чувствительность указанного критерия к редактированию выборки, построить графики вида 1, 2, 3, сделать выводы.

x^n \sim N(\mu,\sigma);
H_0\,:\; \mu=0, \;\;\; H_1\,:\; \mu>0.
При каждом значении параметра \mu генерируется выборка размера n, проводится проверка гипотезы H_0, затем по некоторому правилу из выборки исключается один из элементов, проверка гипотезы повторяется, затем исключается ещё один, и т.д. Обозначим за k максимальное число исключённых в таком процессе элементов.

Студент 21: n=100,\;\;k=50,\;\;\sigma=1,\;\;\mu=-1\,:\,0.01\,:\,1,\;\; на каждом шаге исключается максимальный элемент.
Студент 22: n=200,\;\;k=100,\;\;\sigma=5,\;\;\mu=-2\,:\,0.02\,:\,2,\;\; на каждом шаге исключается максимальный элемент.
Студент 23: n=100,\;\;k=50,\;\;\sigma=2,\;\;\mu=-2\,:\,0.02\,:\,2,\;\; на каждом шаге исключается минимальный элемент.
Студент 24: n=200,\;\;k=100,\;\;\sigma=5,\;\;\mu=-3\,:\,0.03\,:\,3,\;\; на каждом шаге исключается минимальный элемент.

x^n \sim N\left(\mu_1,1\right), \;\;  y^m \sim N\left(\mu_2,\sigma\right);
H_0\,:\; \mu_1=\mu_2, \;\;\; H_1\,:\; \mu_1\neq\mu_2.
\mu_1=0, \;\; \mu_2=-2\,:\,0.01\,:\,2.
На каждом шаге генерируются выборки исходной длины, проводится проверка гипотезы H_0, затем по некоторому правилу из указанной выборки исключается один из элементов, проверка гипотезы повторяется, затем исключается ещё один, и т.д. Обозначим за k максимальное число исключённых в таком процессе элементов.

Студент 25: n=m=100, \;\; \sigma = 1, \;\; k=30, \;\; на каждом шаге исключается максимальный элемент y^m.
Студент 26: n=m=50, \;\; \sigma = 2, \;\; k=20, \;\; на каждом шаге исключается минимальный элемент y^m.
Студент 27: n=50, \;\; m=150\;\; \sigma = 3, \;\; k=50, \;\; на каждом шаге исключается максимальный элемент y^m.
Студент 28: n=100, \;\; m=50; \;\; \sigma = 2, \;\; k=30, \;\; на каждом шаге исключается минимальный элемент x^n.
Студент 29: n=150, \;\; m=100; \;\; \sigma = 3, \;\; k=50, \;\; на каждом шаге исключается максимальный элемент x^n.

Задание 2. Анализ реальных данных

Ниже приведены описания анализируемых данных и постановки задач. Сами данные каждый студент может получить по электронной почте после сдачи первого задания. При проведении анализа можно пользоваться любыми доступными программными средствами. Необходимо предоставить подробный письменный отчёт по проведённому исследованию, содержащий выводы и описания каждого этапа анализа — используемые методы, обоснование их применимости, промежуточные результаты вычислений, графики. Помимо выводов, касающихся математических особенностей решения, необходимо включить в отчёт заключения, сформулированные в терминах предметной области, которые могли бы быть понятны гипотетическому заказчику-нематематику.

Задание должно быть засчитано на момент сдачи экзамена.

Внешний вид и привлекательность самок мечехвостов

Изучалось влияние внешних характеристик самок морских ракообразных мечехвостов на их привлекательность для самцов. Выборка состоит из данных о наблюдениях над 173 особями и содержит закодированные данные о размере самок, их весе, цвете, состоянии панциря, а также о количестве спутников.

Студент 6: построить функцию, по внешним параметрам самки предсказывающую, будет ли у неё хотя бы один спутник. Оценить значимость каждого фактора.
Студент 1: построить функцию, по внешним параметрам самки предсказывающую количество спутников у самки. Оценить значимость каждого фактора.

Состав сигарет

По 25 видам сигарет приведены следующие данные: название бренда, содержание смолы и никотина (мг), вес (г), количество моноксида углерода (CO), выделяемого при сгорании (мг).

Студент 23: Построить функцию, предсказывающую количество выделяемого при сгорании моноксида углерода. Оценить значимость каждого фактора.

Размеры черепа древних египтян

Было измерено 150 черепов, найденных при раскопках в Египте. Находки относятся к пяти различным временным периодам. Для каждого черепа известны: максимальная ширина, базибрегматическая высота, базиальвеолярная длина, высота носа, примерная дата формирования. Была выдвинута гипотеза о том, что изменение этих параметров со временем может свидетельствовать о скрещивании египтян с другими популяциями.

Студент 15: проверить, есть ли различия между размерами черепов различных временных периодов, если есть, то какие периоды отличаются друг от друга.
Студент 27: построить функцию, позволяющую отнести череп к одному из приведённых временных периодов по известным линейным размерам. Оценить значимость каждого фактора.
Студент 20: построить функцию, позволяющую по линейным размерам черепа определить доверительный интервал для даты его формирования.

Летальность пациентов с сепсисом

По 454 пациентам с сепсисом (лихорадка, тахикардия, тахипноэ и острая недостаточность по крайней мере одной системы органов) имеются следующие данные: оценка начального состояния по шкале APACHE острых и хронических функциональных изменений, факт наступления смерти в течение 30 дней после начала исследования (для каждого значения APACHE score приведены общее число пациентов в таком состоянии и соответствующее число пациентов, умерших в течение 30 дней).

Студент 26: оценить вероятность наступления в 30-дневный срок летального исхода в зависимости от исходного состояния. Построить функции, дающие точечную оценку и границы 95% доверительного интервала.

Линейные размеры тысячефранковых банкнот

Банкнота в 1000 швейцарских франков серии, действовавшей в период с 1911 по 1958. Красным обозначены измеренные величины.
Банкнота в 1000 швейцарских франков серии, действовавшей в период с 1911 по 1958. Красным обозначены измеренные величины.

Имеются данные измерений двухсот швейцарских тысячефранковых банкнот, бывших в обращении в первой половине XX века. Сто из банкнот были настоящими, а сто - поддельными. Измерены следующие величины: X_1 — длина банкноты, X_2 —ширина банкноты с левой стороны, X_3 —ширина банкноты с правой стороны, X_4 —расстояние от нижнего края до рамки рисунка, X_5 — расстояние от нижнего края до рамки рисунка, X_6 — длина диагонали рисунка.

Студент 21: построить функцию, оценивающую по данным измерений вероятность того, что имеющаяся банкнота фальшивая, и 95% доверительный интервал для этой вероятности.
Студент 14: построить функции, оценивающие вероятность того, что имеющаяся банкнота фальшивая, по признакам X_1-X_3 и по признакам X_4-X_6. Сравнить эффективность выявления фальшивых купюр по двум группам признаков, сделать выводы.

Вкус и химический состав сыра чеддер

30 разновидностей сыра чеддер было проанализировано как с точки зрения химического состава, так и с помощью дегустаторов. Для каждой разновидности известны: оценка вкуса, полученная путём усреднения оценок, выставленных несколькими дегустаторами, логарифмы концентраций уксусной кислоты и сульфида водорода, концентрация молочной кислоты.

Студент 18: построить функцию, по химическому составу сыра предсказывающую его оценку дегустаторами и границы доверительного интервала для неё.
Студент 25: построить функцию, позволяющую по оценке вкуса и логарифмам концентраций уксусной кислоты и сульфида водорода восстанавливать концентрацию молочной кислоты. Оценить значимость каждого фактора.

Смертность от сердечно-сосудистых заболеваний

Имеются данные по средней дневной смертности от сердечно-сосудистых заболеваний в округе Лос-Анджелес в 1970-1979 годах. Собраны данные по пятисот восьми (идущим подряд) неделям, за каждую из этих недель известна также средняя температура воздуха и мера его загрязнённости.

Студент 11: исследовать взаимосвязи между признаками. Разбить данные на сезоны, сравнить смертность в разные времена года, с учётом и без учёта температуры и загрязнённости воздуха.
Студент 17: построить функцию, предсказывающую смертность от сердечно-сосудистых заболеваний по температуре и загрязнённости воздуха, оценить значимость каждого фактора.
Студент 28: разными способами оценить сезонную компоненту и тенденции изменения величин. Когда, при сохранении без изменения существующих тенденций, будут достигнуты экстремальные значения признаков?
Студент 16: предсказать среднюю дневную смертность от сердечно-сосудистых заболеваний на следующие 100 недель, оценить точность прогноза, построить доверительный интервал.
Студент 29: предсказать загрязнённость воздуха на следующие 100 недель, оценить точность прогноза, построить доверительный интервал.
Студент 5: предсказать среднюю температуру на следующие 100 недель, оценить точность прогноза, построить доверительный интервал.

Эффективность тромболитической терапии

Собраны данные по 206 пациентам второго кардиологического отделения московской городской клинической больницы №25. Имеются результаты 14 анализов, а также 8 дополнительных признаков, описывающих пациента (пол, возраст, курение, наличие диабета и т.д.)

Студент 8: построить функцию, оценивающую вероятность выздоровления пациента в результате тромболитической терапии по приведённым 22 признакам.
Студент 19: построить функцию, оценивающую вероятность возникновения осложнений у пациента в результате тромболитической терапии по приведённым 22 признакам.
Студент 3: оценить влияние курения на вероятности выздоровления и возникновения осложнений, а также на результаты 14 анализов.

Продажи бытовой техники

Известен уровень продаж различных видов бытовой техники в 1960-1985 годах на внутреннем рынке США (в тысячах штук). Имеются также данные о потребительских расходах и о размере инвестиций в жильё (в миллиардах долларов).

Студент 24: исследовать взаимосвязи между признаками, используя как можно больше различных методов.
Студент 9: построить прогнозы уровней продаж всех рассматриваемых видов бытовой техники на 1986 год, оценить точность прогнозов, построить доверительные интервалы.
Студент 7: построить функцию, предсказывающую объём потребительских расходов, оценить значимость каждого признака.

Forbes Global 2000

Журналом Forbes составлен рейтинг 2000 крупнейших компаний мира, данные приведены на март 2010 года. Известны: ранг компании, страна, отрасль, продажи, доходы, активы и рыночная цена в миллиардах долларов.

Студент 10: попытаться восстановить методологию присвоения журналом рангов по имеющимся признакам.
Студент 12: проанализировать распределение крупнейших компаний по отраслям, сравнить значения приведённых признаков в различных отраслях.
Студент 13: проанализировать распределение крупнейших компаний по континентам, сравнить значения приведённых признаков на различных континентах.

Электрическая прочность диэлектрика

Была измерена электрическая прочность изоляции проводов на разных сроках их эксплуатации и при различной температуре. Известно, что зависимость электрической прочности диэлектрика от времени и температуры имеет вид \log(y)=\beta_1-\beta_2\cdot time \cdot e^{-\beta_3\cdot temperature}+\epsilon.

Студент 4: найти значения констант \beta_1, \beta_2, \beta_3, построить для них доверительные области, оценить качество построенной модели.

Литература

Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006.

Ссылки

Личные инструменты