Статистический анализ данных (курс лекций, К.В.Воронцов)/2014, ФУПМ

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
м (Задания)
м (Оценки)
 
(170 промежуточных версий не показаны.)
Строка 2: Строка 2:
= Оценки =
= Оценки =
{|class = "wide sortable"
{|class = "wide sortable"
-
! | Студент || №1 (1 б.) || №2 (1 б.) || №3 (2 б.) || Рецензирование №3 (1 б.) || №4 (2 б.) || Рецензирование №4 (1 б.) || Дополнительно || <tex>\sum</tex>
+
! | Студент || №1 (1 б.) || №2 (1 б.) || №3 (2 б.) || Рецензирование №3 (1 б.) || №4 (2 б.) || Рецензирование №4 (1 б.) || Дополнительно || <tex>\sum</tex> || Оценка
|-
|-
-
|| Старожилец Всеволод || || || || || || || ||
+
|| Старожилец Всеволод || 1 || 1 || 2 || 1 (Рыскина) || 2 || 1 (Мангатаев) || 2|| 10 ||10
|-
|-
-
|| Вялый Евгений || || || || || || || ||
+
|| Вялый Евгений || 0.9 || || 1.4 || 0 (Петров) || 1.8 || (Бескровный) || 2 || 6.1 || 6
|-
|-
-
|| Гончаров Фёдор || || || || || || || ||
+
|| Гончаров Фёдор || 1 || 1 || 2 || (Бескровный)|| 2 || 1 (Старожилец) || 4 || 11 || 10
|-
|-
-
|| Капаев Евгений || || || || || || || ||
+
|| Каледин Станислав || 0.8 || 1 || 1.8 || 1 (Балицкий) || || || || 4.6 || 5
|-
|-
-
|| Коновалов Андрей || || || || || || || ||
+
|| Капаев Евгений || 1 || 0.9 || || || 2 || 0 (Вялый) || 2|| 5.9 || 6
|-
|-
-
|| Кузнецов Роман || || || || || || || ||
+
|| Коновалов Андрей || 1 || 1 || 1.8 || 1 (Неклюдов) || || || 4 || 8.8 || 9
|-
|-
-
|| Петров Михаил || || || || || || || ||
+
|| Кузнецов Роман || 1 || 1 || 1.9 || 0 (Шепелев) || 2 || 1 (Трофимов) || 2 || 8.9 || 9
|-
|-
-
|| Хрипко Кирилл || || || || || || || ||
+
|| Петров Михаил || 0.7|| || 1.8 || 0 (Хрипко) || 2 || 1 (Соколова) || 2 || 7.5 || 8
|-
|-
-
|| Шепелев Денис || || || || || || || ||
+
|| Хрипко Кирилл || 0.8 || 1 || || 0 (Яшков) || 1.9 || 1 (Капаев) || ||4.7 || 5
|-
|-
-
|| Вдовина Евгения || || || || || || || ||
+
|| Шепелев Денис || 1 || 1 || 1.8 || 1 (Харченко) || || || || 4.8 || 5
|-
|-
-
|| Воронов Сергей || || || || || || || ||
+
|| Вдовина Евгения || 1 || 0.9|| 1.8 || 0 (Коновалов) || 1.8 || 1 (Рыскина) || || 6.5 || 7
|-
|-
-
|| Гринчук Олег || || || || || || || ||
+
|| Воронов Сергей || 1 || 1 || 2 || 1 (Перекрестенко) || || || 4 || 9 || 9
|-
|-
-
|| Катруца Александр || || || || || || || ||
+
|| Гринчук Олег || 1|| 1 || 2 || 0 (Папанов) || || || 2 || 6 || 6
|-
|-
-
|| Костин Александр || || || || || || || ||
+
|| Катруца Александр || 1 || 1 || 2 || 1 (Пушняков) || 2 || 0 (Костин) || 4 || 11 || 10
|-
|-
-
|| Неклюдов Кирилл || || || || || || || ||
+
|| Кащеева Мария || 0.9 || 0.8 || 1.1 || 1 (Вялый)|| || 0 (Вдовина) ||2 || 5.8 || 6
|-
|-
-
|| Перекрестенко Дмитрий|| || || || || || || ||
+
|| Костин Александр || 0.5 || || || || 1.1 || 1 (Хрипко) || || 2.6 || 3
|-
|-
-
|| Пушняков Алексей || || || || || || || ||
+
|| Неклюдов Кирилл || 1 || 1 || 2 || 1 (Кащеева)|| || || 4 || 9 || 9
|-
|-
-
|| Рыскина Мария || || || || || || || ||
+
|| Перекрестенко Дмитрий|| 1|| 1 || 2|| 0 (Вдовина) || || || 2|| 6 || —
|-
|-
-
|| Бескровный Александр || || || || || || || ||
+
|| Пушняков Алексей || 1 || 1 || 2 || 1 (Старожилец)|| 2 || 1 (Довгаль) || 4 || 12 || 10
|-
|-
-
|| Поляков Сергей || || || || || || || ||
+
|| Рыскина Мария || 1 || 1 || 2 || 1 (Довгаль) || 1.5 || 1 (Пушняков) || 2 || 9.5 || 10
|-
|-
-
|| Соколова Евгения || || || || || || || ||
+
|| Яшков Даниил || 1 || 1 || 2 || 1 (Воронов) || || || 4 || 9 || 9
|-
|-
-
|| Харченко Наталья || || || || || || || ||
+
|| Бескровный Александр || 0.7|| 0.6 || 0 || 1 (Гончаров)|| 0 || 1 (Кузнецов) || || 3.3 || 3
|-
|-
-
|| Балицкий Алексей || || || || || || || ||
+
|| Поляков Сергей || || 1 || || 0 (Трофимов) || || || || 1 || —
|-
|-
-
|| Довгаль Сергей || || || || || || || ||
+
|| Соколова Евгения || 1 || 1 || 1.1 || || 2 || 1 (Катруца) || 2|| 8.1 || 8
|-
|-
-
|| Трофимов Михаил || || || || || || || ||
+
|| Харченко Наталья || 1|| 1 || 2 || 1 (Кузнецов)|| 2 || || 2|| 9 || 9
|-
|-
-
|| Мангатаев Доржи || || || || || || || ||
+
|| Балицкий Алексей || 1 || 1 || 2 || 1 (Мангатаев) || || || 4 || 9 || 9
 +
|-
 +
|| Довгаль Сергей || 1 || 0.9 || 1.7 || (Поляков) || 1.7 || 1 (Гончаров) || 2 || 8.3 || 8
 +
|-
 +
|| Трофимов Михаил || 1 || 1 || 1.8 || 1 (Катруца) || 8 || (Кащеева) || 2 ||8.8 || 9
 +
|-
 +
|| Папанов Артём || 1 || 1 || 1.8 || 1 (Гринчук) || 2 || || 2 || 8.8 || 9
 +
|-
 +
|| Мангатаев Доржи || 0.9 || 1 || 2 || 0 (Каледин) || 2 || 1 (Петров) || || 6.9 || 7
|}
|}
* Задание считается сданным на момент получения проверяющим письма с отчётом (и кодом, если это указано в задании), при условии отсутствия необходимости внесения дополнений и исправлений.
* Задание считается сданным на момент получения проверяющим письма с отчётом (и кодом, если это указано в задании), при условии отсутствия необходимости внесения дополнений и исправлений.
Строка 63: Строка 71:
** cертификат по курсу Statistical Learning: https://class.stanford.edu/courses/HumanitiesScience/StatLearning/Winter2014/about (первый дедлайн — 21.03) — 2 балла;
** cертификат по курсу Statistical Learning: https://class.stanford.edu/courses/HumanitiesScience/StatLearning/Winter2014/about (первый дедлайн — 21.03) — 2 балла;
** доклад на занятии — 2 балла.
** доклад на занятии — 2 балла.
 +
 +
=Доклады=
 +
* Неклюдов Кирилл. [[Media:Nekludov2014TwoStage.pdf‎|Двухэтапная проверка равенства средних с помощью критериев Стьюдента и Уэлша]].
 +
* Балицкий Алексей. [[Media:Balitsky2014QuantileMatching.pdf‎|Сравнение парных выборок посредством quantile matching functions]].
 +
* Воронов Сергей. [[Media:Voronov2014FalseResearch.pdf|Почему многие опубликованные исследования неверны]].
 +
* Катруца Александр. [[Media:Katrusa2014ClassificatorsComparison.pdf‎ ‎|Статистическое сравнение классификаторов]].
 +
* Пушняков Алексей. [[Media:Pushnyakov2014OrderCross.pdf‎|Взаимосвязи порядковых признаков]].
 +
* Яшков Даниил. [[Media:Yashkov2014CancerFisher.pdf‎|Определение скрытых зависимостей переменных при анализе зависимостей]].
 +
* Коновалов Андрей. [[Media:Konovalov2014RsquaredConfidence.pdf‎|Доверительный интервал для <tex>R^2</tex>]].
= Задание 1. Исследование свойств одномерных статистических критериев на модельных данных =
= Задание 1. Исследование свойств одномерных статистических критериев на модельных данных =
Строка 76: Строка 93:
Необходимо сдать: выполненный в Tex или Microsoft Word отчёт с описанием алгоритма, построенными графиками и '''выводами (объяснение полученных результатов моделирования, границы применимости критерия и т. д.)''', а также код на R, Матлабе или Питоне, при запуске которого на экран выводятся графики, соответствующие имеющимся в отчёте.
Необходимо сдать: выполненный в Tex или Microsoft Word отчёт с описанием алгоритма, построенными графиками и '''выводами (объяснение полученных результатов моделирования, границы применимости критерия и т. д.)''', а также код на R, Матлабе или Питоне, при запуске которого на экран выводятся графики, соответствующие имеющимся в отчёте.
-
Задание принимается до '''23:59 01.03'''.
+
[[Статистический анализ данных (курс лекций, К.В.Воронцов)/2014, ФУПМ/1|Постановки задач]].
 +
 
 +
Пример решения: [[Статистический анализ данных (курс лекций, К.В.Воронцов)/Чувствительность двухвыборочного критерия Стьюдента (пример)|чувствительность двухвыборочного критерия Стьюдента]].
-
Пример задания: [[Статистический анализ данных (курс лекций, К.В.Воронцов)/Чувствительность двухвыборочного критерия Стьюдента (пример)|чувствительность двухвыборочного критерия Стьюдента]].
+
Задание принимается до '''23:59 03.03'''.
-
== Задания==
+
= Задания 2-4. Работа с реальными данными =
-
=== Анализ поведения схожих критериев ===
+
Требуется подобрать и применить наилучший статистический метод, позволяющий ответить на вопрос прикладной задачи; обосновать выбор метода, его применимость и оптимальность. Помимо выводов, касающихся математических особенностей решения, необходимо в терминах предметной области сформулировать выводы, которые могли бы быть понятны гипотетическому заказчику-нематематику.
-
Требуется исследовать поведение указанной пары статистических критериев, подходящих для решения одной и той же задачи, сравнить мощность и достигаемые уровни значимости и сделать выводы о границах применимости критериев. Необходимо для каждого из критериев построить графики зависимости достигаемых уровней значимости и оценок мощностей от параметров, и показать, в каких областях изменения параметров предпочтительнее использовать тот или иной критерий. Для получения более гладких графиков рекомендуется применять оба критерия к одним и тем же выборкам, а не генерировать их отдельно для каждого критерия.
+
-
* <tex>X^n, \;\; X_i\sim Ber(p); </tex><br> <tex>H_0\,:\, p=\frac{1}{2}, \;\; H_1\,:\, p\neq\frac{1}{2};</tex><br> <tex>p=0.01\,:\,0.01\,:\,0.99, \;\; n=5\,:\,1\,:\,50.</tex>
+
Необходимо сдать: подробный отчёт по проведённому исследованию, содержащий визуализацию исходных данных, описания и выводы каждого этапа анализа — используемые методы, обоснование их применимости, графики.
-
::: сравнить z-критерий и точный критерий для доли.
+
-
::: сравнить критерии, основанные на доверительных интервалах Вальда и Уилсона (нулевая гипотеза отвергается на уровне значимости 5%, если 95% доверительный интервал для параметра не содержит <tex>\frac{1}{2}</tex>).
+
-
* <tex>X^n, \;\; X_i\sim N(\mu,\sigma); </tex><br> <tex>H_0\,:</tex> среднее значение <tex>X</tex> равно нулю, <tex>H_1\,:</tex> среднее значение <tex>X</tex> не равно нулю; <br> <tex>\mu=-2\,:\,0.01\,:\,2, \;\; \sigma=1, \;\; n=5\,:\,1\,:\,50.</tex>
+
По заданиям 3 и 4 отчёт каждого студента рецензируется назначенным одногруппником. Задачей рецензента является проверка корректности выбора метода решения, полноты его применения и понятности изложения. Рецензент получает балл, если:
-
::: сравнить одновыборочные t- и z-критерии.
+
* его собственная работа засчитана;
-
::: сравнить одновыборочный t-критерий и критерий знаковых рангов Уилкоксона.
+
* либо в рецензируемой работе устранены все недостатки и она принимается с первого раза, либо указан полный список недостатков работы, устранить которые не удалось.
-
* <tex>X_1^n, \;\; X_{1i} \sim N(\mu_1, \sigma_1^2),\;\;X_2^m, \;\; X_{2i} \sim N(\mu_2, \sigma_2^2);</tex> <br> <tex>H_0\,:</tex> дисперсии выборок равны, <tex>H_1\,:</tex> дисперсии выборок не равны;<br><tex>\mu_1=0, \;\; \sigma_1=1.</tex>
+
-
::: <tex>\mu_2=0, \;\; \sigma_2 = 0.5\,:\,0.01\,:\,2, \;\; n=m=5\,:\,1\,:\,50.</tex> Сравнить [[критерий Фишера]] и [[WM-критерий]].
+
-
::: <tex>\mu_2=-5\,:\,0.05\,:\,5, \;\; \sigma_2 = 0.5\,:\,0.01\,:\,2, \;\; n=m=50.</tex> Сравнить [[WM-критерий]] и [[критерий Зигеля-Тьюки]].
+
-
* <tex>X^n, \;\; X_i \sim p\cdot N(0,1)+ \left(1-p\right)\cdot U\left[-a,a\right]</tex>&nbsp;— выборка длины <tex>n</tex> из смеси стандартного нормального <tex>N(0,1)</tex> и равномерного <tex>U\left[-a,a\right]</tex> распределений с весами <tex>p</tex> и <tex>1-p</tex> соответственно (при генерации выборки используется случайный датчик&nbsp;— если его значение не превосходит <tex>p</tex>, то добавляем в выборку элемент, взятый из нормального распределения, иначе&nbsp;— элемент, взятый из равномерного). <br> <tex> H_0\,:\; X_i \sim N, \;\;\; H_1\,:\; H_0 </tex> неверна; <br> <tex>n=10\,:\,5\,:\,100.</tex>
+
== Задание 2. Проверка гипотез==
-
::: <tex>a=1, \;\; p=0\,:\,0.02\,:\,1.</tex> Сравнить [[критерий Шапиро-Уилка]] и [[критерий Колмогорова-Смирнова]].
+
[[Статистический анализ данных (курс лекций, К.В.Воронцов)/2014, ФУПМ/2|Постановки задач]].
-
::: <tex>a=2, \;\; p=0\,:\,0.02\,:\,1.</tex> Сравнить [[критерий омега-квадрат]] и [[критерий Жарка-Бера]].
+
-
::: <tex>a=0.5\,:\,0.1\,:\,5, \;\; p=0.25.</tex> Сравнить [[критерий Колмогорова-Смирнова]] и [[критерий хи-квадрат]].
+
-
=== Анализ устойчивости критериев к нарушению предположений ===
+
Задание принимается до '''23:59 2.04'''.
-
Требуется исследовать поведение указанного критерия в условиях нарушения лежащих в его основе предположений. Оценить мощность и достигаемый уровень значимости критерия при различных значениях параметров, сделать выводы об устойчивости.
+
-
* Одновыборочный [[критерий Стьюдента]], нарушение предположения о нормальности.
+
== Задание 3. Регрессия ==
-
<tex>X^n, \;\; X_i \sim p\cdot N(\mu,1)+ \left(1-p\right)\cdot U\left[-a+\mu,a+\mu\right]</tex>&nbsp;— выборка длины <tex>n</tex> из смеси нормального <tex>N(\mu,1)</tex> и равномерного <tex>U\left[-a+\mu,a+\mu\right]</tex> распределений с весами <tex>p</tex> и <tex>1-p</tex> соответственно (при генерации каждой выборки используется случайный датчик&nbsp;— если его значение не превосходит <tex>p</tex>, то добавляем в выборку элемент, взятый из нормального распределения, иначе&nbsp;— элемент, взятый из равномерного). <br>
+
[[Статистический анализ данных (курс лекций, К.В.Воронцов)/2014, ФУПМ/3|Постановки задач]].
-
<tex>H_0\,:\; \mu=0, \;\; H_1\,:\; \mu\neq0.</tex> <br>
+
-
::: <tex>\mu=-2\,:\,0.01\,:\,2, \;\; p=0.8, \;\; a=1, \;\; n=15\,:\,5\,:\,200.</tex>
+
-
::: <tex>\mu=1, \;\; p=0\,:\,0.01\,:\,1, \;\; a=2, \;\; n=15\,:\,5\,:\,200.</tex>
+
-
::: <tex>\mu=-2\,:\,0.01\,:\,2, \;\; p=0\,:\,0.01\,:\,1, \;\; a=1, \;\; n=150.</tex>
+
-
::: <tex>\mu=0.5, \;\; p=0\,:\,0.01\,:\,1, \;\; a=0.1\,:\,0.1\,:\,5, \;\; n=100.</tex>
+
-
* [[Критерий Фишера]] для проверки равенства дисперсий, нарушение предположения о нормальности.
+
Предварительные версии отчётов принимаются до '''23:59 20.04''', финальные, по результатам работы с рецензентом до '''23:59 28.04'''.
-
<tex>X_1^n, \;\; X_{1i} \sim p_1\cdot N(0,\sigma_1^2)+ \left(1-p_1\right)\cdot U\left[-a,a\right]</tex>&nbsp;— выборка длины <tex>n</tex> из смеси нормального <tex>N(0,\sigma_1^2)</tex> и равномерного <tex>U[-a,a]</tex> распределений с весами <tex>p_1</tex> и <tex>1-p_1</tex> соответственно (при генерации выборки используется случайный датчик&nbsp;если его значение не превосходит <tex>p_1</tex>, то добавляем в выборку элемент, взятый из нормального распределения, иначе&nbsp;— элемент, взятый из равномерного), <br>
+
-
<tex>X_2^n,\;\; X_{2i} \sim p_2\cdot N(0,\sigma_2^2)+ \left(1-p_2\right)\cdot U\left[-a,a\right]</tex>&nbsp;— аналогичная выборка,<br>
+
-
<tex>H_0\,:</tex> дисперсии двух выборок равны, <tex>\;H_1\,:</tex> дисперсии двух выборок не равны; <br>
+
-
<tex>\sigma_1=2, \;\; \sigma_2=0.1\,:\,0.05\,:\,4.</tex> <br>
+
-
::: <tex>p_1=p_2=0.8, \;\; a=2, \;\; n=15\,:\,5\,:\,200.</tex>
+
-
::: <tex>p_1=p_2=0\,:\,0.01\,:\,1, \;\; a=3, \;\; n=100.</tex>
+
-
* [[Критерий Зигеля-Тьюки]], нарушение предположения о равенстве медиан.
+
== Задание 4. Прогнозирование ==
-
<tex>x^n, \;\; x \sim N(0,1), \;\; y^n, \;\; y \sim N(\mu,\sigma^2);</tex> <br> <tex>H_0\,:\; var(x)=var(y), \;\; H_1\,:\; var(x)\neq var(y).</tex>
+
[[Статистический анализ данных (курс лекций, К.В.Воронцов)/2014, ФУПМ/4|Постановки задач]].
-
::: <tex>\mu=0\,:\,0.02\,:\,2, \;\; \sigma=0.1\,:\,0.05\,:\,2, \;\; n=50.</tex>
+
-
::: <tex>\mu=2, \;\; \sigma=0.1\,:\,0.05\,:\,2, \;\; n=15\,:\,5\,:\,200.</tex>
+
-
=== Анализ корректности двухэтапных процедур проверки гипотез ===
+
Предварительные версии отчётов принимаются до '''23:59 5.05''', финальные, по результатам работы с рецензентом — до '''23:59 14.05'''.
= Ссылки =
= Ссылки =

Текущая версия

Содержание

Оценки

Студент №1 (1 б.) №2 (1 б.) №3 (2 б.) Рецензирование №3 (1 б.) №4 (2 б.) Рецензирование №4 (1 б.) Дополнительно \sum Оценка
Старожилец Всеволод 1 1 2 1 (Рыскина) 2 1 (Мангатаев) 2 10 10
Вялый Евгений 0.9 1.4 0 (Петров) 1.8 (Бескровный) 2 6.1 6
Гончаров Фёдор 1 1 2 (Бескровный) 2 1 (Старожилец) 4 11 10
Каледин Станислав 0.8 1 1.8 1 (Балицкий) 4.6 5
Капаев Евгений 1 0.9 2 0 (Вялый) 2 5.9 6
Коновалов Андрей 1 1 1.8 1 (Неклюдов) 4 8.8 9
Кузнецов Роман 1 1 1.9 0 (Шепелев) 2 1 (Трофимов) 2 8.9 9
Петров Михаил 0.7 1.8 0 (Хрипко) 2 1 (Соколова) 2 7.5 8
Хрипко Кирилл 0.8 1 0 (Яшков) 1.9 1 (Капаев) 4.7 5
Шепелев Денис 1 1 1.8 1 (Харченко) 4.8 5
Вдовина Евгения 1 0.9 1.8 0 (Коновалов) 1.8 1 (Рыскина) 6.5 7
Воронов Сергей 1 1 2 1 (Перекрестенко) 4 9 9
Гринчук Олег 1 1 2 0 (Папанов) 2 6 6
Катруца Александр 1 1 2 1 (Пушняков) 2 0 (Костин) 4 11 10
Кащеева Мария 0.9 0.8 1.1 1 (Вялый) 0 (Вдовина) 2 5.8 6
Костин Александр 0.5 1.1 1 (Хрипко) 2.6 3
Неклюдов Кирилл 1 1 2 1 (Кащеева) 4 9 9
Перекрестенко Дмитрий 1 1 2 0 (Вдовина) 2 6
Пушняков Алексей 1 1 2 1 (Старожилец) 2 1 (Довгаль) 4 12 10
Рыскина Мария 1 1 2 1 (Довгаль) 1.5 1 (Пушняков) 2 9.5 10
Яшков Даниил 1 1 2 1 (Воронов) 4 9 9
Бескровный Александр 0.7 0.6 0 1 (Гончаров) 0 1 (Кузнецов) 3.3 3
Поляков Сергей 1 0 (Трофимов) 1
Соколова Евгения 1 1 1.1 2 1 (Катруца) 2 8.1 8
Харченко Наталья 1 1 2 1 (Кузнецов) 2 2 9 9
Балицкий Алексей 1 1 2 1 (Мангатаев) 4 9 9
Довгаль Сергей 1 0.9 1.7 (Поляков) 1.7 1 (Гончаров) 2 8.3 8
Трофимов Михаил 1 1 1.8 1 (Катруца) 8 (Кащеева) 2 8.8 9
Папанов Артём 1 1 1.8 1 (Гринчук) 2 2 8.8 9
Мангатаев Доржи 0.9 1 2 0 (Каледин) 2 1 (Петров) 6.9 7
  • Задание считается сданным на момент получения проверяющим письма с отчётом (и кодом, если это указано в задании), при условии отсутствия необходимости внесения дополнений и исправлений.
  • Штраф за просрочку сдачи заданий начисляется из расчета 0.1 балла за сутки.
  • Для получения зачёта необходимо сдать как минимум два задания: хотя бы одно из первых двух и хотя бы одно из последних двух.
  • Балл за рецензирование можно получить только при условии сдачи соответствующего задания.
  • Способы получения дополнительных баллов:

Доклады

Задание 1. Исследование свойств одномерных статистических критериев на модельных данных

Необходимо провести исследование одного или нескольких классических критериев проверки статистических гипотез. Интерес представляет поведение достигаемого уровня значимости (p-value) как функции размера выборок и параметров распределения. В соответствии с индивидуальными параметрами задания необходимо указанным способом сгенерировать одну или несколько выборок из заданного распределения, выполнить проверку гипотезы при помощи соответствующего критерия, а затем многократно повторить эту процедуру для различных значений параметров. По результатам расчётов необходимо построить требуемые в задании графики, среди которых могут быть следующие:

  1. график зависимости достигаемого уровня значимости от значений параметров при однократном проведении эксперимента;
  2. график зависимости достигаемого уровня значимости одного или двух критериев от значений параметров, усреднённого по большому количеству повторений эксперимента (например, по 1000 повторений);
  3. график с эмпирическими оценками мощности одного или двух критериев для разных значений параметров.

В качестве оценки мощности принимается доля отвержений нулевой гипотезы среди всех проверок. То есть, если эксперимент повторялся k раз для каждого набора значений параметров, и в m из k случаев гипотеза была отвергнута на некотором фиксированном уровне значимости \alpha (примем \alpha=0.05), оценкой мощности будет отношение m/k.

Необходимо сдать: выполненный в Tex или Microsoft Word отчёт с описанием алгоритма, построенными графиками и выводами (объяснение полученных результатов моделирования, границы применимости критерия и т. д.), а также код на R, Матлабе или Питоне, при запуске которого на экран выводятся графики, соответствующие имеющимся в отчёте.

Постановки задач.

Пример решения: чувствительность двухвыборочного критерия Стьюдента.

Задание принимается до 23:59 03.03.

Задания 2-4. Работа с реальными данными

Требуется подобрать и применить наилучший статистический метод, позволяющий ответить на вопрос прикладной задачи; обосновать выбор метода, его применимость и оптимальность. Помимо выводов, касающихся математических особенностей решения, необходимо в терминах предметной области сформулировать выводы, которые могли бы быть понятны гипотетическому заказчику-нематематику.

Необходимо сдать: подробный отчёт по проведённому исследованию, содержащий визуализацию исходных данных, описания и выводы каждого этапа анализа — используемые методы, обоснование их применимости, графики.

По заданиям 3 и 4 отчёт каждого студента рецензируется назначенным одногруппником. Задачей рецензента является проверка корректности выбора метода решения, полноты его применения и понятности изложения. Рецензент получает балл, если:

  • его собственная работа засчитана;
  • либо в рецензируемой работе устранены все недостатки и она принимается с первого раза, либо указан полный список недостатков работы, устранить которые не удалось.

Задание 2. Проверка гипотез

Постановки задач.

Задание принимается до 23:59 2.04.

Задание 3. Регрессия

Постановки задач.

Предварительные версии отчётов принимаются до 23:59 20.04, финальные, по результатам работы с рецензентом — до 23:59 28.04.

Задание 4. Прогнозирование

Постановки задач.

Предварительные версии отчётов принимаются до 23:59 5.05, финальные, по результатам работы с рецензентом — до 23:59 14.05.

Ссылки

Личные инструменты