Статистический анализ данных (курс лекций, К.В.Воронцов)/2015
Материал из MachineLearning.
(Различия между версиями)
м (→Оценки) |
м (→Оценки) |
||
Строка 2: | Строка 2: | ||
= Оценки = | = Оценки = | ||
{|class = "wide sortable" | {|class = "wide sortable" | ||
- | ! | Студент || №1 (0.6) || №2 (0.6) || №3 (1.4) || Рецензирование №3 (0.3) || №4 (1.4) || Рецензирование №4 (0.3) || Дополнительно || Сумма за семестр | + | ! | Студент || №1 (0.6) || №2 (0.6) || №3 (1.4) || Рецензирование №3 (0.3) || №4 (1.4) || Рецензирование №4 (0.3) || Дополнительно || Сумма за семестр || Оценка |
|- | |- | ||
| Апишев Мурат || || || || || || || || || | | Апишев Мурат || || || || || || || || || | ||
Строка 41: | Строка 41: | ||
|- | |- | ||
|} | |} | ||
- | * Задание считается сданным на момент получения | + | * Задание считается сданным на момент получения письма с отчётом при условии отсутствия необходимости внесения дополнений и исправлений. |
- | * Штраф за просрочку | + | * Штраф за просрочку заданий начисляется из расчёта 0.05 балла за сутки. |
* Для допуска к экзамену необходимо сдать как минимум два задания: хотя бы одно из первых двух и хотя бы одно из последних двух. | * Для допуска к экзамену необходимо сдать как минимум два задания: хотя бы одно из первых двух и хотя бы одно из последних двух. | ||
* Балл за рецензирование можно получить только при условии сдачи соответствующего задания. | * Балл за рецензирование можно получить только при условии сдачи соответствующего задания. | ||
Строка 63: | Строка 63: | ||
В качестве оценки мощности принимается доля отвержений нулевой гипотезы среди всех проверок. То есть, если эксперимент повторялся <tex>k</tex> раз для каждого набора значений параметров, и в <tex>m</tex> из <tex>k</tex> случаев гипотеза была отвергнута на некотором фиксированном уровне значимости <tex>\alpha</tex> (примем <tex>\alpha=0.05</tex>), оценкой мощности будет отношение <tex>m/k.</tex> | В качестве оценки мощности принимается доля отвержений нулевой гипотезы среди всех проверок. То есть, если эксперимент повторялся <tex>k</tex> раз для каждого набора значений параметров, и в <tex>m</tex> из <tex>k</tex> случаев гипотеза была отвергнута на некотором фиксированном уровне значимости <tex>\alpha</tex> (примем <tex>\alpha=0.05</tex>), оценкой мощности будет отношение <tex>m/k.</tex> | ||
- | Необходимо сдать: | + | Необходимо сдать: Rmd и сгенерированный по нему html/pdf-файл с описанием алгоритма, построенными графиками и '''выводами (объяснение полученных результатов моделирования, границы применимости критерия и т. д.)'''. |
- | [[Статистический анализ данных (курс лекций, К.В.Воронцов)/ | + | [[Статистический анализ данных (курс лекций, К.В.Воронцов)/2015/1|Постановки задач]]. |
Пример решения: [[Статистический анализ данных (курс лекций, К.В.Воронцов)/Чувствительность двухвыборочного критерия Стьюдента (пример)|чувствительность двухвыборочного критерия Стьюдента]]. | Пример решения: [[Статистический анализ данных (курс лекций, К.В.Воронцов)/Чувствительность двухвыборочного критерия Стьюдента (пример)|чувствительность двухвыборочного критерия Стьюдента]]. | ||
- | Задание принимается до '''23:59 | + | Задание принимается до '''23:59 '''. |
= Задания 2-4. Работа с реальными данными = | = Задания 2-4. Работа с реальными данными = | ||
Требуется подобрать и применить наилучший статистический метод, позволяющий ответить на вопрос прикладной задачи; обосновать выбор метода, его применимость и оптимальность. Помимо выводов, касающихся математических особенностей решения, необходимо в терминах предметной области сформулировать выводы, которые могли бы быть понятны гипотетическому заказчику-нематематику. | Требуется подобрать и применить наилучший статистический метод, позволяющий ответить на вопрос прикладной задачи; обосновать выбор метода, его применимость и оптимальность. Помимо выводов, касающихся математических особенностей решения, необходимо в терминах предметной области сформулировать выводы, которые могли бы быть понятны гипотетическому заказчику-нематематику. | ||
- | Необходимо сдать: | + | Необходимо сдать: Rmd и сгенерированный по нему html/pdf-файл с подробным отчётом по проведённому исследованию, содержащий визуализацию исходных данных, описания и выводы каждого этапа анализа — используемые методы, обоснование их применимости, графики. |
По заданиям 3 и 4 отчёт каждого студента рецензируется назначенным одногруппником. Задачей рецензента является проверка корректности выбора метода решения, полноты его применения и понятности изложения. Рецензент получает балл, если: | По заданиям 3 и 4 отчёт каждого студента рецензируется назначенным одногруппником. Задачей рецензента является проверка корректности выбора метода решения, полноты его применения и понятности изложения. Рецензент получает балл, если: | ||
Строка 81: | Строка 81: | ||
== Задание 2. Проверка гипотез== | == Задание 2. Проверка гипотез== | ||
- | [[Статистический анализ данных (курс лекций, К.В.Воронцов)/ | + | [[Статистический анализ данных (курс лекций, К.В.Воронцов)/2015/2|Постановки задач]]. |
- | Задание принимается до '''23:59 | + | Задание принимается до '''23:59 '''. |
== Задание 3. Регрессия == | == Задание 3. Регрессия == | ||
[[Статистический анализ данных (курс лекций, К.В.Воронцов)/2015/3|Постановки задач]]. | [[Статистический анализ данных (курс лекций, К.В.Воронцов)/2015/3|Постановки задач]]. | ||
- | Предварительные версии отчётов принимаются до '''23:59 | + | Предварительные версии отчётов принимаются до '''23:59 ''', финальные, по результатам работы с рецензентом — до '''23:59 '''. |
== Задание 4. Прогнозирование == | == Задание 4. Прогнозирование == | ||
Для прогнозирования необходимо самостоятельно выбрать уникальный временной ряд из любого источника, например: | Для прогнозирования необходимо самостоятельно выбрать уникальный временной ряд из любого источника, например: | ||
- | * Time Series Data Library на https://datamarket.com/data/list/?q=provider:tsdl | + | * Time Series Data Library на https://datamarket.com/data/list/?q=provider:tsdl; |
* http://www.comp-engine.org/timeseries/browse-data-by-category из категории real-world. | * http://www.comp-engine.org/timeseries/browse-data-by-category из категории real-world. | ||
Рекомендуется выбирать ряд от нескольких сотен до нескольких тысяч отсчётов с целым периодом сезонности не больше 20 отсчётов. | Рекомендуется выбирать ряд от нескольких сотен до нескольких тысяч отсчётов с целым периодом сезонности не больше 20 отсчётов. | ||
- | Выбранный ряд нужно занести в таблицу | + | Выбранный ряд нужно занести в таблицу |
- | Предварительные версии отчётов принимаются до '''23:59 | + | Предварительные версии отчётов принимаются до '''23:59 ''', финальные, по результатам работы с рецензентом — до '''23:59 '''. |
---> | ---> | ||
Версия 13:27, 6 февраля 2015
|
Оценки
Студент | №1 (0.6) | №2 (0.6) | №3 (1.4) | Рецензирование №3 (0.3) | №4 (1.4) | Рецензирование №4 (0.3) | Дополнительно | Сумма за семестр | Оценка | |
---|---|---|---|---|---|---|---|---|---|---|
Апишев Мурат | ||||||||||
Афанасьев Кирилл | ||||||||||
Готман Мария | ||||||||||
Дойков Никита | ||||||||||
Козлов Владимир | ||||||||||
Колмаков Евгений | ||||||||||
Корольков Михаил | ||||||||||
Лисяной Александр | ||||||||||
Лукашкина Юлия | ||||||||||
Ожерельев Илья | ||||||||||
Родоманов Антон | ||||||||||
Сендерович Никита | ||||||||||
Славнов Константин | ||||||||||
Тюрин Александр | ||||||||||
Хальман Михаил | ||||||||||
Хомутов Никита | ||||||||||
Чистяков Александр | ||||||||||
Шапулин Андрей |
- Задание считается сданным на момент получения письма с отчётом при условии отсутствия необходимости внесения дополнений и исправлений.
- Штраф за просрочку заданий начисляется из расчёта 0.05 балла за сутки.
- Для допуска к экзамену необходимо сдать как минимум два задания: хотя бы одно из первых двух и хотя бы одно из последних двух.
- Балл за рецензирование можно получить только при условии сдачи соответствующего задания.
- Источники дополнительных баллов:
- мини-курс «R Programming» (https://www.coursera.org/course/rprog) — 0.5 балла;
- мини-курс «Statistical Inference» (https://www.coursera.org/course/statinference) — 0.3 балла;
- мини-курс «Regression Models» (https://www.coursera.org/course/regmods) — 0.3 балла;
- курс «Methods of model selection» (http://ium.mccme.ru/s15/s15-spokoinyii.html) — 2 балла.
- Итоговая оценка по курсу — минимум из суммы баллов за семестр и оценкой на экзамене. Округление делается по стандартным правилам.
- Студенты, не набравшие баллов достаточно для получения положительной оценки, к экзамену не допускаются. На каждой следующей итерации сдачи экзамена максимальный балл каждой задачи уменьшается вдвое. При этом можно брать по несколько задач каждого задания, но не больше , где — номер итерации сдачи экзамена. Баллы за рецензирование можно получить только на первой итерации.
Ссылки
- psad.homework@gmail.com
- Статистический анализ данных (курс лекций, К.В.Воронцов)