Статистический анализ данных (курс лекций, К.В.Воронцов)/2011, ФУПМ

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
м (Вкус и химический состав сыра чеддер)
Текущая версия (18:54, 29 сентября 2011) (править) (отменить)
м
 
Строка 49: Строка 49:
<tex>H_0\,:\; \mu_1=\mu_2, \;\; H_1\,:\; \mu_1\neq\mu_2;</tex> <br>
<tex>H_0\,:\; \mu_1=\mu_2, \;\; H_1\,:\; \mu_1\neq\mu_2;</tex> <br>
<tex>\mu_1=0; \;\; \mu_2=-2\,:\,0.01\,:\,2.</tex> <br>
<tex>\mu_1=0; \;\; \mu_2=-2\,:\,0.01\,:\,2.</tex> <br>
-
::Кононенко Даниил: <tex>p_1=0.8, \;\; p_2=1, \;\; a=1, \;\; n=15\,:\,5\,:\,200.</tex>
+
::Студент 1: <tex>p_1=0.8, \;\; p_2=1, \;\; a=1, \;\; n=15\,:\,5\,:\,200.</tex>
-
::Голкин Александр: <tex>p_1=0.9, \;\; p_2=1, \;\; a=5, \;\; n=15\,:\,5\,:\,200.</tex>
+
::Студент 2: <tex>p_1=0.9, \;\; p_2=1, \;\; a=5, \;\; n=15\,:\,5\,:\,200.</tex>
-
::Завадский Глеб: <tex>p_1=p_2=0.8, \;\; a=1, \;\; n=15\,:\,5\,:\,200.</tex>
+
::Студент 3: <tex>p_1=p_2=0.8, \;\; a=1, \;\; n=15\,:\,5\,:\,200.</tex>
-
::Чугунов Кирилл: <tex>p_1=p_2=0.9, \;\; a=5, \;\; n=15\,:\,5\,:\,200.</tex>
+
::Студент 4: <tex>p_1=p_2=0.9, \;\; a=5, \;\; n=15\,:\,5\,:\,200.</tex>
-
::Корниенко Алексей: <tex>p_1=p_2=0\,:\,0.01\,:\,1, \;\; a=1, \;\; n=150.</tex>
+
::Студент 5: <tex>p_1=p_2=0\,:\,0.01\,:\,1, \;\; a=1, \;\; n=150.</tex>
-
::Кузнецов Михаил: <tex>p_1=p_2=0\,:\,0.01\,:\,1, \;\; a=5, \;\; n=100.</tex>
+
::Студент 6: <tex>p_1=p_2=0\,:\,0.01\,:\,1, \;\; a=5, \;\; n=100.</tex>
* [[Критерий Фишера]] для проверки равенства дисперсий.
* [[Критерий Фишера]] для проверки равенства дисперсий.
Строка 61: Строка 61:
<tex>H_0\,:\; \sigma_1=\sigma_2, \;\; H_1\,:\; \sigma_1\neq\sigma_2.</tex> <br>
<tex>H_0\,:\; \sigma_1=\sigma_2, \;\; H_1\,:\; \sigma_1\neq\sigma_2.</tex> <br>
<tex>\sigma_1=1, \;\; \sigma_2=0.1\,:\,0.05\,:\,4.</tex> <br>
<tex>\sigma_1=1, \;\; \sigma_2=0.1\,:\,0.05\,:\,4.</tex> <br>
-
::Иванов Николай: <tex>p_1=0.8, \;\; p_2=1, \;\; a=1, \;\; n=15\,:\,5\,:\,200.</tex>
+
::Студент 7: <tex>p_1=0.8, \;\; p_2=1, \;\; a=1, \;\; n=15\,:\,5\,:\,200.</tex>
-
::Рубцов Александр: <tex>p_1=0.9, \;\; p_2=1, \;\; a=5, \;\; n=15\,:\,5\,:\,200.</tex>
+
::Студент 8: <tex>p_1=0.9, \;\; p_2=1, \;\; a=5, \;\; n=15\,:\,5\,:\,200.</tex>
-
::Рукина Дарья: <tex>p_1=p_2=0.8, \;\; a=1, \;\; n=15\,:\,5\,:\,200.</tex>
+
::Студент 9: <tex>p_1=p_2=0.8, \;\; a=1, \;\; n=15\,:\,5\,:\,200.</tex>
-
::Савгиров Арш: <tex>p_1=p_2=0.9, \;\; a=5, \;\; n=15\,:\,5\,:\,200.</tex>
+
::Студент 10: <tex>p_1=p_2=0.9, \;\; a=5, \;\; n=15\,:\,5\,:\,200.</tex>
-
::Спиридонов Роман: <tex>p_1=p_2=0\,:\,0.01\,:\,1, \;\; a=1, \;\; n=150.</tex>
+
::Студент 11: <tex>p_1=p_2=0\,:\,0.01\,:\,1, \;\; a=1, \;\; n=150.</tex>
-
::Стукалюк Владимир: <tex>p_1=p_2=0\,:\,0.01\,:\,1, \;\; a=5, \;\; n=100.</tex>
+
::Студент 12: <tex>p_1=p_2=0\,:\,0.01\,:\,1, \;\; a=5, \;\; n=100.</tex>
=== Влияние связок на поведение статистических критериев ===
=== Влияние связок на поведение статистических критериев ===
Строка 80: Строка 80:
<tex>H_0\,:\; x^n</tex> распределена нормально; <tex>H_1\,:\; x^n</tex> распределена по какому-то другому закону. <br>
<tex>H_0\,:\; x^n</tex> распределена нормально; <tex>H_1\,:\; x^n</tex> распределена по какому-то другому закону. <br>
<tex>n=20\,:\,5\,:\,200.</tex> <br>
<tex>n=20\,:\,5\,:\,200.</tex> <br>
-
::Сунгуров Дмитрий: [[критерий Андерсона-Дарлинга]], указанная процедура порождения связок, <tex>k=\frac{n}{3}, \;\;p=0\,:\,0.01\,:\,1, \;\; -a=b=3.</tex>
+
::Студент 13: [[критерий Андерсона-Дарлинга]], указанная процедура порождения связок, <tex>k=\frac{n}{3}, \;\;p=0\,:\,0.01\,:\,1, \;\; -a=b=3.</tex>
-
::Животовский Никита: [[критерий Шапиро-Уилка]], указанная процедура порождения связок, <tex>k=\frac{n}{2}, \;\;p=0\,:\,0.01\,:\,1, \;\; -a=b=3.</tex>
+
::Студент 14: [[критерий Шапиро-Уилка]], указанная процедура порождения связок, <tex>k=\frac{n}{2}, \;\;p=0\,:\,0.01\,:\,1, \;\; -a=b=3.</tex>
-
::Мафусалов Александр: [[критерий Андерсона-Дарлинга]], округление элементов выборки до десятых, <tex>p=0\,:\,0.01\,:\,1, \;\; a=-1, \;\; b=1.5.</tex>
+
::Студент 15: [[критерий Андерсона-Дарлинга]], округление элементов выборки до десятых, <tex>p=0\,:\,0.01\,:\,1, \;\; a=-1, \;\; b=1.5.</tex>
-
::Сечин Павел: [[критерий Шапиро-Уилка]], округление элементов выборки до десятых, <tex>p=0\,:\,0.01\,:\,1, \;\; a=-2, \;\; b=3.</tex>
+
::Студент 16: [[критерий Шапиро-Уилка]], округление элементов выборки до десятых, <tex>p=0\,:\,0.01\,:\,1, \;\; a=-2, \;\; b=3.</tex>
* [[Критерий Уилкоксона-Манна-Уитни]].
* [[Критерий Уилкоксона-Манна-Уитни]].
Строка 89: Строка 89:
<tex>H_0\,:\; \mu=0, \;\;\; H_1\,:\; \mu\neq 0; </tex> <br>
<tex>H_0\,:\; \mu=0, \;\;\; H_1\,:\; \mu\neq 0; </tex> <br>
<tex>\mu=0\,:\,0.01\,:\,2.</tex>
<tex>\mu=0\,:\,0.01\,:\,2.</tex>
-
::Джамтырова Раиса: элементы обеих выборок округляются до десятых, <tex>n=10\,:\,5\,:\,200.</tex>
+
::Студент 17: элементы обеих выборок округляются до десятых, <tex>n=10\,:\,5\,:\,200.</tex>
-
::Ивкин Никита: элементы обеих выборок округляются до 0.5, <tex>n=10\,:\,5\,:\,200.</tex>
+
::Студент 18: элементы обеих выборок округляются до 0.5, <tex>n=10\,:\,5\,:\,200.</tex>
-
::Пронин Яков: указанная процедура порождения связок (в обеих выборках), <tex>n=10\,:\,5\,:\,200, \;\; k=\frac{n}{3}.</tex>
+
::Студент 19: указанная процедура порождения связок (в обеих выборках), <tex>n=10\,:\,5\,:\,200, \;\; k=\frac{n}{3}.</tex>
-
::Фирстенко Александр: указанная процедура порождения связок (в обеих выборках), <tex>n=50, \;\; k=0\,:\,1\,:\,30.</tex>
+
::Студент 20: указанная процедура порождения связок (в обеих выборках), <tex>n=50, \;\; k=0\,:\,1\,:\,30.</tex>
=== Анализ чувствительности критериев к редактированию выборки===
=== Анализ чувствительности критериев к редактированию выборки===
Строка 99: Строка 99:
<tex>x^n \sim N(\mu,\sigma);</tex> <br> <tex>H_0\,:\; \mu=0, \;\;\; H_1\,:\; \mu>0.</tex> <br>
<tex>x^n \sim N(\mu,\sigma);</tex> <br> <tex>H_0\,:\; \mu=0, \;\;\; H_1\,:\; \mu>0.</tex> <br>
При каждом значении параметра <tex>\mu</tex> генерируется выборка размера <tex>n</tex>, проводится проверка гипотезы <tex>H_0</tex>, затем по некоторому правилу из выборки исключается один из элементов, проверка гипотезы повторяется, затем исключается ещё один, и&nbsp;т.д. Обозначим за <tex>k</tex> максимальное число исключённых в таком процессе элементов.
При каждом значении параметра <tex>\mu</tex> генерируется выборка размера <tex>n</tex>, проводится проверка гипотезы <tex>H_0</tex>, затем по некоторому правилу из выборки исключается один из элементов, проверка гипотезы повторяется, затем исключается ещё один, и&nbsp;т.д. Обозначим за <tex>k</tex> максимальное число исключённых в таком процессе элементов.
-
::Фадеев Илья: <tex>n=100,\;\;k=50,\;\;\sigma=1,\;\;\mu=-1\,:\,0.01\,:\,1,\;\;</tex> на каждом шаге исключается максимальный элемент.
+
::Студент 21: <tex>n=100,\;\;k=50,\;\;\sigma=1,\;\;\mu=-1\,:\,0.01\,:\,1,\;\;</tex> на каждом шаге исключается максимальный элемент.
-
::Берновский Михаил: <tex>n=200,\;\;k=100,\;\;\sigma=5,\;\;\mu=-2\,:\,0.02\,:\,2,\;\;</tex> на каждом шаге исключается максимальный элемент.
+
::Студент 22: <tex>n=200,\;\;k=100,\;\;\sigma=5,\;\;\mu=-2\,:\,0.02\,:\,2,\;\;</tex> на каждом шаге исключается максимальный элемент.
-
::Бессарабов Никита: <tex>n=100,\;\;k=50,\;\;\sigma=2,\;\;\mu=-2\,:\,0.02\,:\,2,\;\;</tex> на каждом шаге исключается минимальный элемент.
+
::Студент 23: <tex>n=100,\;\;k=50,\;\;\sigma=2,\;\;\mu=-2\,:\,0.02\,:\,2,\;\;</tex> на каждом шаге исключается минимальный элемент.
-
::Гнедков Игорь: <tex>n=200,\;\;k=100,\;\;\sigma=5,\;\;\mu=-3\,:\,0.03\,:\,3,\;\;</tex> на каждом шаге исключается минимальный элемент.
+
::Студент 24: <tex>n=200,\;\;k=100,\;\;\sigma=5,\;\;\mu=-3\,:\,0.03\,:\,3,\;\;</tex> на каждом шаге исключается минимальный элемент.
* Двухвыборочный [[критерий Стьюдента]].
* Двухвыборочный [[критерий Стьюдента]].
Строка 109: Строка 109:
<tex>\mu_1=0, \;\; \mu_2=-2\,:\,0.01\,:\,2. </tex> <br>
<tex>\mu_1=0, \;\; \mu_2=-2\,:\,0.01\,:\,2. </tex> <br>
На каждом шаге генерируются выборки исходной длины, проводится проверка гипотезы <tex>H_0</tex>, затем по некоторому правилу из указанной выборки исключается один из элементов, проверка гипотезы повторяется, затем исключается ещё один, и&nbsp;т.д. Обозначим за <tex>k</tex> максимальное число исключённых в таком процессе элементов.
На каждом шаге генерируются выборки исходной длины, проводится проверка гипотезы <tex>H_0</tex>, затем по некоторому правилу из указанной выборки исключается один из элементов, проверка гипотезы повторяется, затем исключается ещё один, и&nbsp;т.д. Обозначим за <tex>k</tex> максимальное число исключённых в таком процессе элементов.
-
::Савинов Николай: <tex>n=m=100, \;\; \sigma = 1, \;\; k=30, \;\; </tex> на каждом шаге исключается максимальный элемент <tex>y^m</tex>.
+
::Студент 25: <tex>n=m=100, \;\; \sigma = 1, \;\; k=30, \;\; </tex> на каждом шаге исключается максимальный элемент <tex>y^m</tex>.
-
::Татарников Дмитрий: <tex>n=m=50, \;\; \sigma = 2, \;\; k=20, \;\; </tex> на каждом шаге исключается минимальный элемент <tex>y^m</tex>.
+
::Студент 26: <tex>n=m=50, \;\; \sigma = 2, \;\; k=20, \;\; </tex> на каждом шаге исключается минимальный элемент <tex>y^m</tex>.
-
::Зайцев Евгений: <tex>n=50, \;\; m=150\;\; \sigma = 3, \;\; k=50, \;\; </tex> на каждом шаге исключается максимальный элемент <tex>y^m</tex>.
+
::Студент 27: <tex>n=50, \;\; m=150\;\; \sigma = 3, \;\; k=50, \;\; </tex> на каждом шаге исключается максимальный элемент <tex>y^m</tex>.
-
::Морозов Алексей: <tex>n=100, \;\; m=50; \;\; \sigma = 2, \;\; k=30, \;\; </tex> на каждом шаге исключается минимальный элемент <tex>x^n</tex>.
+
::Студент 28: <tex>n=100, \;\; m=50; \;\; \sigma = 2, \;\; k=30, \;\; </tex> на каждом шаге исключается минимальный элемент <tex>x^n</tex>.
-
::Быстрый Роман: <tex>n=150, \;\; m=100; \;\; \sigma = 3, \;\; k=50, \;\; </tex> на каждом шаге исключается максимальный элемент <tex>x^n</tex>.
+
::Студент 29: <tex>n=150, \;\; m=100; \;\; \sigma = 3, \;\; k=50, \;\; </tex> на каждом шаге исключается максимальный элемент <tex>x^n</tex>.
= Задание 2. Анализ реальных данных =
= Задание 2. Анализ реальных данных =
Строка 122: Строка 122:
=== Внешний вид и привлекательность самок мечехвостов ===
=== Внешний вид и привлекательность самок мечехвостов ===
Изучалось влияние внешних характеристик самок морских ракообразных [http://upload.wikimedia.org/wikipedia/commons/f/f7/Limulus.jpg мечехвостов] на их привлекательность для самцов. Выборка состоит из данных о наблюдениях над 173 особями и содержит закодированные данные о размере самок, их весе, цвете, состоянии панциря, а также о количестве спутников.
Изучалось влияние внешних характеристик самок морских ракообразных [http://upload.wikimedia.org/wikipedia/commons/f/f7/Limulus.jpg мечехвостов] на их привлекательность для самцов. Выборка состоит из данных о наблюдениях над 173 особями и содержит закодированные данные о размере самок, их весе, цвете, состоянии панциря, а также о количестве спутников.
-
::Кузнецов Михаил: построить функцию, по внешним параметрам самки предсказывающую, будет ли у неё хотя бы один спутник. Оценить значимость каждого фактора.
+
::Студент 6: построить функцию, по внешним параметрам самки предсказывающую, будет ли у неё хотя бы один спутник. Оценить значимость каждого фактора.
-
::Кононенко Даниил: построить функцию, по внешним параметрам самки предсказывающую количество спутников у самки. Оценить значимость каждого фактора.
+
::Студент 1: построить функцию, по внешним параметрам самки предсказывающую количество спутников у самки. Оценить значимость каждого фактора.
=== Состав сигарет ===
=== Состав сигарет ===
По 25 видам сигарет приведены следующие данные: название бренда, содержание смолы и никотина (мг), вес (г), количество моноксида углерода (CO), выделяемого при сгорании (мг).
По 25 видам сигарет приведены следующие данные: название бренда, содержание смолы и никотина (мг), вес (г), количество моноксида углерода (CO), выделяемого при сгорании (мг).
-
::Бессарабов Никита: Построить функцию, предсказывающую количество выделяемого при сгорании моноксида углерода. Оценить значимость каждого фактора.
+
::Студент 23: Построить функцию, предсказывающую количество выделяемого при сгорании моноксида углерода. Оценить значимость каждого фактора.
=== Размеры черепа древних египтян ===
=== Размеры черепа древних египтян ===
Было измерено 150 черепов, найденных при раскопках в Египте. Находки относятся к пяти различным временным периодам. Для каждого черепа известны: максимальная ширина, базибрегматическая высота, базиальвеолярная длина, высота носа, примерная дата формирования. Была выдвинута гипотеза о том, что изменение этих параметров со временем может свидетельствовать о скрещивании египтян с другими популяциями.
Было измерено 150 черепов, найденных при раскопках в Египте. Находки относятся к пяти различным временным периодам. Для каждого черепа известны: максимальная ширина, базибрегматическая высота, базиальвеолярная длина, высота носа, примерная дата формирования. Была выдвинута гипотеза о том, что изменение этих параметров со временем может свидетельствовать о скрещивании египтян с другими популяциями.
-
::Мафусалов Александр: проверить, есть ли различия между размерами черепов различных временных периодов, если есть, то какие периоды отличаются друг от друга.
+
::Студент 15: проверить, есть ли различия между размерами черепов различных временных периодов, если есть, то какие периоды отличаются друг от друга.
-
::Зайцев Евгений: построить функцию, позволяющую отнести череп к одному из приведённых временных периодов по известным линейным размерам. Оценить значимость каждого фактора.
+
::Студент 27: построить функцию, позволяющую отнести череп к одному из приведённых временных периодов по известным линейным размерам. Оценить значимость каждого фактора.
-
::Фирстенко Александр: построить функцию, позволяющую по линейным размерам черепа определить доверительный интервал для даты его формирования.
+
::Студент 20: построить функцию, позволяющую по линейным размерам черепа определить доверительный интервал для даты его формирования.
===Летальность пациентов с сепсисом===
===Летальность пациентов с сепсисом===
По 454 пациентам с сепсисом (лихорадка, тахикардия, тахипноэ и острая недостаточность по крайней мере одной системы органов) имеются следующие данные: оценка начального состояния по шкале APACHE острых и хронических функциональных изменений, факт наступления смерти в течение 30 дней после начала исследования (для каждого значения APACHE score приведены общее число пациентов в таком состоянии и соответствующее число пациентов, умерших в течение 30 дней).
По 454 пациентам с сепсисом (лихорадка, тахикардия, тахипноэ и острая недостаточность по крайней мере одной системы органов) имеются следующие данные: оценка начального состояния по шкале APACHE острых и хронических функциональных изменений, факт наступления смерти в течение 30 дней после начала исследования (для каждого значения APACHE score приведены общее число пациентов в таком состоянии и соответствующее число пациентов, умерших в течение 30 дней).
-
::Татарников Дмитрий: оценить вероятность наступления в 30-дневный срок летального исхода в зависимости от исходного состояния. Построить функции, дающие точечную оценку и границы 95% доверительного интервала.
+
::Студент 26: оценить вероятность наступления в 30-дневный срок летального исхода в зависимости от исходного состояния. Построить функции, дающие точечную оценку и границы 95% доверительного интервала.
=== Линейные размеры тысячефранковых банкнот ===
=== Линейные размеры тысячефранковых банкнот ===
[[Изображение:CHF1000 2 back horizontal.jpg|300px|thumb|Банкнота в 1000 швейцарских франков серии, действовавшей в период с 1911 по 1958. Красным обозначены измеренные величины.]]
[[Изображение:CHF1000 2 back horizontal.jpg|300px|thumb|Банкнота в 1000 швейцарских франков серии, действовавшей в период с 1911 по 1958. Красным обозначены измеренные величины.]]
Имеются данные измерений двухсот швейцарских тысячефранковых банкнот, бывших в обращении в первой половине XX века. Сто из банкнот были настоящими, а сто - поддельными. Измерены следующие величины: <tex>X_1</tex>&nbsp;— длина банкноты, <tex>X_2</tex>&nbsp;—ширина банкноты с левой стороны, <tex>X_3</tex>&nbsp;—ширина банкноты с правой стороны, <tex>X_4</tex>&nbsp;—расстояние от нижнего края до рамки рисунка, <tex>X_5</tex>&nbsp;— расстояние от нижнего края до рамки рисунка, <tex>X_6</tex>&nbsp;— длина диагонали рисунка.
Имеются данные измерений двухсот швейцарских тысячефранковых банкнот, бывших в обращении в первой половине XX века. Сто из банкнот были настоящими, а сто - поддельными. Измерены следующие величины: <tex>X_1</tex>&nbsp;— длина банкноты, <tex>X_2</tex>&nbsp;—ширина банкноты с левой стороны, <tex>X_3</tex>&nbsp;—ширина банкноты с правой стороны, <tex>X_4</tex>&nbsp;—расстояние от нижнего края до рамки рисунка, <tex>X_5</tex>&nbsp;— расстояние от нижнего края до рамки рисунка, <tex>X_6</tex>&nbsp;— длина диагонали рисунка.
-
::Фадеев Илья: построить функцию, оценивающую по данным измерений вероятность того, что имеющаяся банкнота фальшивая, и 95% доверительный интервал для этой вероятности.
+
::Студент 21: построить функцию, оценивающую по данным измерений вероятность того, что имеющаяся банкнота фальшивая, и 95% доверительный интервал для этой вероятности.
-
::Животовский Никита: построить функции, оценивающие вероятность того, что имеющаяся банкнота фальшивая, по признакам <tex>X_1-X_3</tex> и по признакам <tex>X_4-X_6</tex>. Сравнить эффективность выявления фальшивых купюр по двум группам признаков, сделать выводы.
+
::Студент 14: построить функции, оценивающие вероятность того, что имеющаяся банкнота фальшивая, по признакам <tex>X_1-X_3</tex> и по признакам <tex>X_4-X_6</tex>. Сравнить эффективность выявления фальшивых купюр по двум группам признаков, сделать выводы.
=== Вкус и химический состав сыра чеддер ===
=== Вкус и химический состав сыра чеддер ===
30 разновидностей сыра чеддер было проанализировано как с точки зрения химического состава, так и с помощью дегустаторов. Для каждой разновидности известны: оценка вкуса, полученная путём усреднения оценок, выставленных несколькими дегустаторами, логарифмы концентраций уксусной кислоты и сульфида водорода, концентрация молочной кислоты.
30 разновидностей сыра чеддер было проанализировано как с точки зрения химического состава, так и с помощью дегустаторов. Для каждой разновидности известны: оценка вкуса, полученная путём усреднения оценок, выставленных несколькими дегустаторами, логарифмы концентраций уксусной кислоты и сульфида водорода, концентрация молочной кислоты.
-
::Ивкин Никита: построить функцию, по химическому составу сыра предсказывающую его оценку дегустаторами и границы доверительного интервала для неё.
+
::Студент 18: построить функцию, по химическому составу сыра предсказывающую его оценку дегустаторами и границы доверительного интервала для неё.
-
::Савинов Николай: построить функцию, позволяющую по оценке вкуса и логарифмам концентраций уксусной кислоты и сульфида водорода восстанавливать концентрацию молочной кислоты. Оценить значимость каждого фактора.
+
::Студент 25: построить функцию, позволяющую по оценке вкуса и логарифмам концентраций уксусной кислоты и сульфида водорода восстанавливать концентрацию молочной кислоты. Оценить значимость каждого фактора.
=== Смертность от сердечно-сосудистых заболеваний ===
=== Смертность от сердечно-сосудистых заболеваний ===
Имеются данные по средней дневной смертности от сердечно-сосудистых заболеваний в округе Лос-Анджелес в 1970-1979 годах. Собраны данные по пятисот восьми (идущим подряд) неделям, за каждую из этих недель известна также средняя температура воздуха и мера его загрязнённости.
Имеются данные по средней дневной смертности от сердечно-сосудистых заболеваний в округе Лос-Анджелес в 1970-1979 годах. Собраны данные по пятисот восьми (идущим подряд) неделям, за каждую из этих недель известна также средняя температура воздуха и мера его загрязнённости.
-
::Спиридонов Роман: исследовать взаимосвязи между признаками. Разбить данные на сезоны, сравнить смертность в разные времена года, с учётом и без учёта температуры и загрязнённости воздуха.
+
::Студент 11: исследовать взаимосвязи между признаками. Разбить данные на сезоны, сравнить смертность в разные времена года, с учётом и без учёта температуры и загрязнённости воздуха.
-
::Джамтырова Раиса: построить функцию, предсказывающую смертность от сердечно-сосудистых заболеваний по температуре и загрязнённости воздуха, оценить значимость каждого фактора.
+
::Студент 17: построить функцию, предсказывающую смертность от сердечно-сосудистых заболеваний по температуре и загрязнённости воздуха, оценить значимость каждого фактора.
-
::Морозов Алексей: разными способами оценить сезонную компоненту и тенденции изменения величин. Когда, при сохранении без изменения существующих тенденций, будут достигнуты экстремальные значения признаков?
+
::Студент 28: разными способами оценить сезонную компоненту и тенденции изменения величин. Когда, при сохранении без изменения существующих тенденций, будут достигнуты экстремальные значения признаков?
-
::Сечин Павел: предсказать среднюю дневную смертность от сердечно-сосудистых заболеваний на следующие 100 недель, оценить точность прогноза, построить доверительный интервал.
+
::Студент 16: предсказать среднюю дневную смертность от сердечно-сосудистых заболеваний на следующие 100 недель, оценить точность прогноза, построить доверительный интервал.
-
::Быстрый Роман: предсказать загрязнённость воздуха на следующие 100 недель, оценить точность прогноза, построить доверительный интервал.
+
::Студент 29: предсказать загрязнённость воздуха на следующие 100 недель, оценить точность прогноза, построить доверительный интервал.
-
::Корниенко Алексей: предсказать среднюю температуру на следующие 100 недель, оценить точность прогноза, построить доверительный интервал.
+
::Студент 5: предсказать среднюю температуру на следующие 100 недель, оценить точность прогноза, построить доверительный интервал.
=== Эффективность тромболитической терапии===
=== Эффективность тромболитической терапии===
Собраны данные по 206 пациентам второго кардиологического отделения московской городской клинической больницы №25. Имеются результаты 14 анализов, а также 8 дополнительных признаков, описывающих пациента (пол, возраст, курение, наличие диабета и т.д.)
Собраны данные по 206 пациентам второго кардиологического отделения московской городской клинической больницы №25. Имеются результаты 14 анализов, а также 8 дополнительных признаков, описывающих пациента (пол, возраст, курение, наличие диабета и т.д.)
-
::Рубцов Александр: построить функцию, оценивающую вероятность выздоровления пациента в результате тромболитической терапии по приведённым 22 признакам.
+
::Студент 8: построить функцию, оценивающую вероятность выздоровления пациента в результате тромболитической терапии по приведённым 22 признакам.
-
::Пронин Яков: построить функцию, оценивающую вероятность возникновения осложнений у пациента в результате тромболитической терапии по приведённым 22 признакам.
+
::Студент 19: построить функцию, оценивающую вероятность возникновения осложнений у пациента в результате тромболитической терапии по приведённым 22 признакам.
-
::Завадский Глеб: оценить влияние курения на вероятности выздоровления и возникновения осложнений, а также на результаты 14 анализов.
+
::Студент 3: оценить влияние курения на вероятности выздоровления и возникновения осложнений, а также на результаты 14 анализов.
===Продажи бытовой техники===
===Продажи бытовой техники===
Известен уровень продаж различных видов бытовой техники в 1960-1985 годах на внутреннем рынке США (в тысячах штук). Имеются также данные о потребительских расходах и о размере инвестиций в жильё (в миллиардах долларов).
Известен уровень продаж различных видов бытовой техники в 1960-1985 годах на внутреннем рынке США (в тысячах штук). Имеются также данные о потребительских расходах и о размере инвестиций в жильё (в миллиардах долларов).
-
::Гнедков Игорь: исследовать взаимосвязи между признаками, используя как можно больше различных методов.
+
::Студент 24: исследовать взаимосвязи между признаками, используя как можно больше различных методов.
-
::Рукина Дарья: построить прогнозы уровней продаж всех рассматриваемых видов бытовой техники на 1986 год, оценить точность прогнозов, построить доверительные интервалы.
+
::Студент 9: построить прогнозы уровней продаж всех рассматриваемых видов бытовой техники на 1986 год, оценить точность прогнозов, построить доверительные интервалы.
-
::Иванов Николай: построить функцию, предсказывающую объём потребительских расходов, оценить значимость каждого признака.
+
::Студент 7: построить функцию, предсказывающую объём потребительских расходов, оценить значимость каждого признака.
=== Forbes Global 2000 ===
=== Forbes Global 2000 ===
Журналом Forbes составлен рейтинг 2000 крупнейших компаний мира, данные приведены на март 2010 года. Известны: ранг компании, страна, отрасль, продажи, доходы, активы и рыночная цена в миллиардах долларов.
Журналом Forbes составлен рейтинг 2000 крупнейших компаний мира, данные приведены на март 2010 года. Известны: ранг компании, страна, отрасль, продажи, доходы, активы и рыночная цена в миллиардах долларов.
-
::Савгиров Арш: попытаться восстановить методологию присвоения журналом рангов по имеющимся признакам.
+
::Студент 10: попытаться восстановить методологию присвоения журналом рангов по имеющимся признакам.
-
::Стукалюк Владимир: проанализировать распределение крупнейших компаний по отраслям, сравнить значения приведённых признаков в различных отраслях.
+
::Студент 12: проанализировать распределение крупнейших компаний по отраслям, сравнить значения приведённых признаков в различных отраслях.
-
::Сунгуров Дмитрий: проанализировать распределение крупнейших компаний по континентам, сравнить значения приведённых признаков на различных континентах.
+
::Студент 13: проанализировать распределение крупнейших компаний по континентам, сравнить значения приведённых признаков на различных континентах.
=== Электрическая прочность диэлектрика ===
=== Электрическая прочность диэлектрика ===
Была измерена электрическая прочность изоляции проводов на разных сроках их эксплуатации и при различной температуре. Известно, что зависимость электрической прочности диэлектрика от времени и температуры имеет вид <tex>\log(y)=\beta_1-\beta_2\cdot time \cdot e^{-\beta_3\cdot temperature}+\epsilon</tex>.
Была измерена электрическая прочность изоляции проводов на разных сроках их эксплуатации и при различной температуре. Известно, что зависимость электрической прочности диэлектрика от времени и температуры имеет вид <tex>\log(y)=\beta_1-\beta_2\cdot time \cdot e^{-\beta_3\cdot temperature}+\epsilon</tex>.
-
::Чугунов Кирилл: найти значения констант <tex>\beta_1, \beta_2, \beta_3,</tex> построить для них доверительные области, оценить качество построенной модели.
+
::Студент 4: найти значения констант <tex>\beta_1, \beta_2, \beta_3,</tex> построить для них доверительные области, оценить качество построенной модели.
= Литература =
= Литература =

Текущая версия

Содержание

Задание 1. Исследование свойств одномерных статистических критериев на модельных данных

Необходимо провести исследование одного из классических критериев проверки статистических гипотез. Интерес представляет поведение достигаемого уровня значимости (p-value) как функции размера выборок и параметров распределения. В соответствии с индивидуальными параметрами задания необходимо указанным способом сгенерировать одну или несколько выборок из заданного распределения, выполнить проверку гипотезы при помощи соответствующего критерия, а затем многократно повторить эту процедуру для различных значений параметров. По результатам расчётов необходимо построить следующие графики:

  1. график зависимости достигаемого уровня значимости от значений параметров при однократном проведении эксперимента;
  2. график зависимости достигаемого уровня значимости от значений параметров, усреднённого по большому количеству повторений эксперимента (например, по 100, 500, 1000 повторений — чем больше, тем лучше);
  3. график с эмпирическими оценками мощности критерия для разных значений параметров.

В качестве оценки мощности принимается доля отвержений нулевой гипотезы среди всех проверок. То есть, если эксперимент повторялся k раз для каждого набора значений параметра, и в m из k случаев гипотеза была отвергнута на некотором фиксированном уровне значимости \alpha (примем \alpha=0.05), оценкой мощности будет отношение m/k.

Необходимо сдать: отчёт с описанием алгоритма, построенными графиками и выводами (объяснение полученных результатов моделирования, границы применимости критерия и т.д.), а также файл с текстом программы на использованном языке (Matlab, R, и т.д.), при выполнении которой проводятся указанные в задаче вычисления и на экран выводятся графики, соответствующие имеющимся в отчёте.

Задание принимается до девятого апреля.

Пример задания

Исследуем поведение классического двухвыборочного критерия Стьюдента для проверки гипотезы однородности против альтернативы сдвига при разных значениях параметров.

x^n = (x_1,\ldots,x_n)\sim N(\mu_1,\sigma),\;\; y^n = (y_1,\ldots,y_n)\sim N(\mu_2,\sigma);

H_0\,:\; \mu_1=\mu_2,

H_1\,:\; \mu_1\neq\mu_2.

\sigma = 1; \;\;\; \mu_1=0; \;\;\; \mu_2=0\,:\,0.05\,:\,3; \;\;\;  n=5\,:\,1\,:\,50.

При каждом значении \mu_2 выборки для разных значений n генерируются независимо.

Графики 1 и 2 иллюстрируют зависимость достигаемого уровня значимости от размера выборки и среднего \mu_2. На графике 3 показана зависимость мощности критерия от параметров задачи; мощность в каждой точке оценивается как доля экспериментов, в которых гипотеза была отвергнута на уровне значимости \alpha=0.05.

  1. Видно, что при \mu_2=0 среднее значение достигаемого уровня значимости при многократном повторении эксперимента равно 0.5 для любого размера выборки. Это логично, так как при \mu_2=0 нулевая гипотеза справедлива, и достигаемый уровень значимости имеет равномерное распределение на [0,1].
  2. При n>20 и \mu_2>1 критерий имеет достаточную мощность, и нулевая гипотеза чаще всего отвергается.
  3. При размере выборки до 50 элементов и среднем второй выборки \mu_2<0.5 критерий практически не способен отклонить гипотезу однородности, мощность в этой области изменения параметров низка.
  4. При большой разнице между средними выборок (\mu_2>2)критерий достаточно уверенно отвергает гипотезу однородности даже на выборках небольшого размера (5-6 элементов).

Задания

Устойчивость критериев к нарушению предположений

Исследовать поведение параметрических критериев, предполагающих нормальность данных, при зашумлении выборок наблюдениями, взятыми из равномерного распределения. Построить графики вида 1, 2, 3, сделать выводы о чувствительности критерия к зашумлению.

x^n \sim p_1\cdot N(\mu_1,1)+ \left(1-p_1\right)\cdot U\left[-a+\mu_1,a+\mu_1\right] — выборка длины n из смеси нормального N(\mu_1,1) и равномерного U\left[-a+\mu_1,a+\mu_1\right] распределений с весами p_1 и 1-p_1 соответственно (при генерации выборки используется случайный датчик — если его значение не превосходит p_1, то добавляем в выборку элемент, взятый из нормального распределения, иначе — элемент, взятый из равномерного).
y^n \sim p_2\cdot N(\mu_2,1)+ \left(1-p_2\right)\cdot U\left[-a+\mu_2,a+\mu_2\right] — аналогичная выборка.
H_0\,:\; \mu_1=\mu_2, \;\; H_1\,:\; \mu_1\neq\mu_2;
\mu_1=0; \;\; \mu_2=-2\,:\,0.01\,:\,2.

Студент 1: p_1=0.8, \;\; p_2=1, \;\; a=1, \;\; n=15\,:\,5\,:\,200.
Студент 2: p_1=0.9, \;\; p_2=1, \;\; a=5, \;\; n=15\,:\,5\,:\,200.
Студент 3: p_1=p_2=0.8, \;\; a=1, \;\; n=15\,:\,5\,:\,200.
Студент 4: p_1=p_2=0.9, \;\; a=5, \;\; n=15\,:\,5\,:\,200.
Студент 5: p_1=p_2=0\,:\,0.01\,:\,1, \;\; a=1, \;\; n=150.
Студент 6: p_1=p_2=0\,:\,0.01\,:\,1, \;\; a=5, \;\; n=100.

x^n \sim p_1\cdot N(0,\sigma_1)+ \left(1-p_1\right)\cdot U\left[-a,a\right] — выборка длины n из смеси нормального N(0,\sigma_1) и равномерного U[-a,a] распределений с весами p_1 и 1-p_1 соответственно (при генерации выборки используется случайный датчик — если его значение не превосходит p_1, то добавляем в выборку элемент, взятый из нормального распределения, иначе — элемент, взятый из равномерного).
y^n \sim p_2\cdot N(0,\sigma_2)+ \left(1-p_2\right)\cdot U\left[-a,a\right] — аналогичная выборка.
H_0\,:\; \sigma_1=\sigma_2, \;\; H_1\,:\; \sigma_1\neq\sigma_2.
\sigma_1=1, \;\; \sigma_2=0.1\,:\,0.05\,:\,4.

Студент 7: p_1=0.8, \;\; p_2=1, \;\; a=1, \;\; n=15\,:\,5\,:\,200.
Студент 8: p_1=0.9, \;\; p_2=1, \;\; a=5, \;\; n=15\,:\,5\,:\,200.
Студент 9: p_1=p_2=0.8, \;\; a=1, \;\; n=15\,:\,5\,:\,200.
Студент 10: p_1=p_2=0.9, \;\; a=5, \;\; n=15\,:\,5\,:\,200.
Студент 11: p_1=p_2=0\,:\,0.01\,:\,1, \;\; a=1, \;\; n=150.
Студент 12: p_1=p_2=0\,:\,0.01\,:\,1, \;\; a=5, \;\; n=100.

Влияние связок на поведение статистических критериев

Многие статистические критерии неявно предполагают, что выборка извлечена из абсолютно непрерывного распределения, что значит, что вероятность наличия в ней одинаковых элементов равна нулю. Необходимо исследовать поведение такого критерия в случае наличия в выборке совпадающих значений. Построить графики вида 1, 2, 3, сделать выводы о чувствительности критерия к наличию связок.

Для генерации выборки со связками может использоваться округление элементов выборки, либо следующая процедура:

  1. генерируется выборка x^n размера n из указанного в задаче распределения;
  2. в вариационном ряду выборки x^n_{\left(i\right)} выбираются k непересекающихся пар элементов \left(x_{\left(i\right)}, x_{\left(i+1\right)}\right), лежащих ближе всего друг к другу;
  3. для всех k выбранных пар элементы выборки x_{\left(i\right)} и x_{\left(i+1\right) заменяются их средним.
  • Статистические критерии, проверяющие гипотезу нормальности.

x^n\sim p\cdot N\left(0,1\right)+\left(1-p\right)\cdot U\left[a,b\right] — выборка длины n из смеси нормального N\left(0,1\right) и равномерного U\left[a,b\right] распределений с весами p и 1-p соответственно (при генерации выборки используется случайный датчик — если его значение не превосходит p, то добавляем в выборку элемент, взятый из нормального распределения, иначе — элемент, взятый из равномерного);
H_0\,:\; x^n распределена нормально; H_1\,:\; x^n распределена по какому-то другому закону.
n=20\,:\,5\,:\,200.

Студент 13: критерий Андерсона-Дарлинга, указанная процедура порождения связок, k=\frac{n}{3}, \;\;p=0\,:\,0.01\,:\,1, \;\; -a=b=3.
Студент 14: критерий Шапиро-Уилка, указанная процедура порождения связок, k=\frac{n}{2}, \;\;p=0\,:\,0.01\,:\,1, \;\; -a=b=3.
Студент 15: критерий Андерсона-Дарлинга, округление элементов выборки до десятых, p=0\,:\,0.01\,:\,1, \;\; a=-1, \;\; b=1.5.
Студент 16: критерий Шапиро-Уилка, округление элементов выборки до десятых, p=0\,:\,0.01\,:\,1, \;\; a=-2, \;\; b=3.

x^n \sim N(0,1),\;\;y^n \sim N(\mu,1);
H_0\,:\; \mu=0, \;\;\; H_1\,:\; \mu\neq 0;
\mu=0\,:\,0.01\,:\,2.

Студент 17: элементы обеих выборок округляются до десятых, n=10\,:\,5\,:\,200.
Студент 18: элементы обеих выборок округляются до 0.5, n=10\,:\,5\,:\,200.
Студент 19: указанная процедура порождения связок (в обеих выборках), n=10\,:\,5\,:\,200, \;\; k=\frac{n}{3}.
Студент 20: указанная процедура порождения связок (в обеих выборках), n=50, \;\; k=0\,:\,1\,:\,30.

Анализ чувствительности критериев к редактированию выборки

Известно, что исключение из выборки определённых наблюдений зачастую может достаточно сильно повлиять на результат анализа. Необходимо исследовать чувствительность указанного критерия к редактированию выборки, построить графики вида 1, 2, 3, сделать выводы.

x^n \sim N(\mu,\sigma);
H_0\,:\; \mu=0, \;\;\; H_1\,:\; \mu>0.
При каждом значении параметра \mu генерируется выборка размера n, проводится проверка гипотезы H_0, затем по некоторому правилу из выборки исключается один из элементов, проверка гипотезы повторяется, затем исключается ещё один, и т.д. Обозначим за k максимальное число исключённых в таком процессе элементов.

Студент 21: n=100,\;\;k=50,\;\;\sigma=1,\;\;\mu=-1\,:\,0.01\,:\,1,\;\; на каждом шаге исключается максимальный элемент.
Студент 22: n=200,\;\;k=100,\;\;\sigma=5,\;\;\mu=-2\,:\,0.02\,:\,2,\;\; на каждом шаге исключается максимальный элемент.
Студент 23: n=100,\;\;k=50,\;\;\sigma=2,\;\;\mu=-2\,:\,0.02\,:\,2,\;\; на каждом шаге исключается минимальный элемент.
Студент 24: n=200,\;\;k=100,\;\;\sigma=5,\;\;\mu=-3\,:\,0.03\,:\,3,\;\; на каждом шаге исключается минимальный элемент.

x^n \sim N\left(\mu_1,1\right), \;\;  y^m \sim N\left(\mu_2,\sigma\right);
H_0\,:\; \mu_1=\mu_2, \;\;\; H_1\,:\; \mu_1\neq\mu_2.
\mu_1=0, \;\; \mu_2=-2\,:\,0.01\,:\,2.
На каждом шаге генерируются выборки исходной длины, проводится проверка гипотезы H_0, затем по некоторому правилу из указанной выборки исключается один из элементов, проверка гипотезы повторяется, затем исключается ещё один, и т.д. Обозначим за k максимальное число исключённых в таком процессе элементов.

Студент 25: n=m=100, \;\; \sigma = 1, \;\; k=30, \;\; на каждом шаге исключается максимальный элемент y^m.
Студент 26: n=m=50, \;\; \sigma = 2, \;\; k=20, \;\; на каждом шаге исключается минимальный элемент y^m.
Студент 27: n=50, \;\; m=150\;\; \sigma = 3, \;\; k=50, \;\; на каждом шаге исключается максимальный элемент y^m.
Студент 28: n=100, \;\; m=50; \;\; \sigma = 2, \;\; k=30, \;\; на каждом шаге исключается минимальный элемент x^n.
Студент 29: n=150, \;\; m=100; \;\; \sigma = 3, \;\; k=50, \;\; на каждом шаге исключается максимальный элемент x^n.

Задание 2. Анализ реальных данных

Ниже приведены описания анализируемых данных и постановки задач. Сами данные каждый студент может получить по электронной почте после сдачи первого задания. При проведении анализа можно пользоваться любыми доступными программными средствами. Необходимо предоставить подробный письменный отчёт по проведённому исследованию, содержащий выводы и описания каждого этапа анализа — используемые методы, обоснование их применимости, промежуточные результаты вычислений, графики. Помимо выводов, касающихся математических особенностей решения, необходимо включить в отчёт заключения, сформулированные в терминах предметной области, которые могли бы быть понятны гипотетическому заказчику-нематематику.

Задание должно быть засчитано на момент сдачи экзамена.

Внешний вид и привлекательность самок мечехвостов

Изучалось влияние внешних характеристик самок морских ракообразных мечехвостов на их привлекательность для самцов. Выборка состоит из данных о наблюдениях над 173 особями и содержит закодированные данные о размере самок, их весе, цвете, состоянии панциря, а также о количестве спутников.

Студент 6: построить функцию, по внешним параметрам самки предсказывающую, будет ли у неё хотя бы один спутник. Оценить значимость каждого фактора.
Студент 1: построить функцию, по внешним параметрам самки предсказывающую количество спутников у самки. Оценить значимость каждого фактора.

Состав сигарет

По 25 видам сигарет приведены следующие данные: название бренда, содержание смолы и никотина (мг), вес (г), количество моноксида углерода (CO), выделяемого при сгорании (мг).

Студент 23: Построить функцию, предсказывающую количество выделяемого при сгорании моноксида углерода. Оценить значимость каждого фактора.

Размеры черепа древних египтян

Было измерено 150 черепов, найденных при раскопках в Египте. Находки относятся к пяти различным временным периодам. Для каждого черепа известны: максимальная ширина, базибрегматическая высота, базиальвеолярная длина, высота носа, примерная дата формирования. Была выдвинута гипотеза о том, что изменение этих параметров со временем может свидетельствовать о скрещивании египтян с другими популяциями.

Студент 15: проверить, есть ли различия между размерами черепов различных временных периодов, если есть, то какие периоды отличаются друг от друга.
Студент 27: построить функцию, позволяющую отнести череп к одному из приведённых временных периодов по известным линейным размерам. Оценить значимость каждого фактора.
Студент 20: построить функцию, позволяющую по линейным размерам черепа определить доверительный интервал для даты его формирования.

Летальность пациентов с сепсисом

По 454 пациентам с сепсисом (лихорадка, тахикардия, тахипноэ и острая недостаточность по крайней мере одной системы органов) имеются следующие данные: оценка начального состояния по шкале APACHE острых и хронических функциональных изменений, факт наступления смерти в течение 30 дней после начала исследования (для каждого значения APACHE score приведены общее число пациентов в таком состоянии и соответствующее число пациентов, умерших в течение 30 дней).

Студент 26: оценить вероятность наступления в 30-дневный срок летального исхода в зависимости от исходного состояния. Построить функции, дающие точечную оценку и границы 95% доверительного интервала.

Линейные размеры тысячефранковых банкнот

Банкнота в 1000 швейцарских франков серии, действовавшей в период с 1911 по 1958. Красным обозначены измеренные величины.
Банкнота в 1000 швейцарских франков серии, действовавшей в период с 1911 по 1958. Красным обозначены измеренные величины.

Имеются данные измерений двухсот швейцарских тысячефранковых банкнот, бывших в обращении в первой половине XX века. Сто из банкнот были настоящими, а сто - поддельными. Измерены следующие величины: X_1 — длина банкноты, X_2 —ширина банкноты с левой стороны, X_3 —ширина банкноты с правой стороны, X_4 —расстояние от нижнего края до рамки рисунка, X_5 — расстояние от нижнего края до рамки рисунка, X_6 — длина диагонали рисунка.

Студент 21: построить функцию, оценивающую по данным измерений вероятность того, что имеющаяся банкнота фальшивая, и 95% доверительный интервал для этой вероятности.
Студент 14: построить функции, оценивающие вероятность того, что имеющаяся банкнота фальшивая, по признакам X_1-X_3 и по признакам X_4-X_6. Сравнить эффективность выявления фальшивых купюр по двум группам признаков, сделать выводы.

Вкус и химический состав сыра чеддер

30 разновидностей сыра чеддер было проанализировано как с точки зрения химического состава, так и с помощью дегустаторов. Для каждой разновидности известны: оценка вкуса, полученная путём усреднения оценок, выставленных несколькими дегустаторами, логарифмы концентраций уксусной кислоты и сульфида водорода, концентрация молочной кислоты.

Студент 18: построить функцию, по химическому составу сыра предсказывающую его оценку дегустаторами и границы доверительного интервала для неё.
Студент 25: построить функцию, позволяющую по оценке вкуса и логарифмам концентраций уксусной кислоты и сульфида водорода восстанавливать концентрацию молочной кислоты. Оценить значимость каждого фактора.

Смертность от сердечно-сосудистых заболеваний

Имеются данные по средней дневной смертности от сердечно-сосудистых заболеваний в округе Лос-Анджелес в 1970-1979 годах. Собраны данные по пятисот восьми (идущим подряд) неделям, за каждую из этих недель известна также средняя температура воздуха и мера его загрязнённости.

Студент 11: исследовать взаимосвязи между признаками. Разбить данные на сезоны, сравнить смертность в разные времена года, с учётом и без учёта температуры и загрязнённости воздуха.
Студент 17: построить функцию, предсказывающую смертность от сердечно-сосудистых заболеваний по температуре и загрязнённости воздуха, оценить значимость каждого фактора.
Студент 28: разными способами оценить сезонную компоненту и тенденции изменения величин. Когда, при сохранении без изменения существующих тенденций, будут достигнуты экстремальные значения признаков?
Студент 16: предсказать среднюю дневную смертность от сердечно-сосудистых заболеваний на следующие 100 недель, оценить точность прогноза, построить доверительный интервал.
Студент 29: предсказать загрязнённость воздуха на следующие 100 недель, оценить точность прогноза, построить доверительный интервал.
Студент 5: предсказать среднюю температуру на следующие 100 недель, оценить точность прогноза, построить доверительный интервал.

Эффективность тромболитической терапии

Собраны данные по 206 пациентам второго кардиологического отделения московской городской клинической больницы №25. Имеются результаты 14 анализов, а также 8 дополнительных признаков, описывающих пациента (пол, возраст, курение, наличие диабета и т.д.)

Студент 8: построить функцию, оценивающую вероятность выздоровления пациента в результате тромболитической терапии по приведённым 22 признакам.
Студент 19: построить функцию, оценивающую вероятность возникновения осложнений у пациента в результате тромболитической терапии по приведённым 22 признакам.
Студент 3: оценить влияние курения на вероятности выздоровления и возникновения осложнений, а также на результаты 14 анализов.

Продажи бытовой техники

Известен уровень продаж различных видов бытовой техники в 1960-1985 годах на внутреннем рынке США (в тысячах штук). Имеются также данные о потребительских расходах и о размере инвестиций в жильё (в миллиардах долларов).

Студент 24: исследовать взаимосвязи между признаками, используя как можно больше различных методов.
Студент 9: построить прогнозы уровней продаж всех рассматриваемых видов бытовой техники на 1986 год, оценить точность прогнозов, построить доверительные интервалы.
Студент 7: построить функцию, предсказывающую объём потребительских расходов, оценить значимость каждого признака.

Forbes Global 2000

Журналом Forbes составлен рейтинг 2000 крупнейших компаний мира, данные приведены на март 2010 года. Известны: ранг компании, страна, отрасль, продажи, доходы, активы и рыночная цена в миллиардах долларов.

Студент 10: попытаться восстановить методологию присвоения журналом рангов по имеющимся признакам.
Студент 12: проанализировать распределение крупнейших компаний по отраслям, сравнить значения приведённых признаков в различных отраслях.
Студент 13: проанализировать распределение крупнейших компаний по континентам, сравнить значения приведённых признаков на различных континентах.

Электрическая прочность диэлектрика

Была измерена электрическая прочность изоляции проводов на разных сроках их эксплуатации и при различной температуре. Известно, что зависимость электрической прочности диэлектрика от времени и температуры имеет вид \log(y)=\beta_1-\beta_2\cdot time \cdot e^{-\beta_3\cdot temperature}+\epsilon.

Студент 4: найти значения констант \beta_1, \beta_2, \beta_3, построить для них доверительные области, оценить качество построенной модели.

Литература

Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006.

Ссылки

Личные инструменты