Статистический анализ данных (курс лекций, К.В.Воронцов)/2015
Материал из MachineLearning.
м (→Оценки) |
м (→Оценки) |
||
(91 промежуточная версия не показана) | |||
Строка 4: | Строка 4: | ||
! | Студент || №1 (0.6) || №2 (0.6) || №3 (1.4) || Рецензирование №3 (0.3) || №4 (1.4) || Рецензирование №4 (0.3) || Дополнительно || Сумма за семестр || Оценка | ! | Студент || №1 (0.6) || №2 (0.6) || №3 (1.4) || Рецензирование №3 (0.3) || №4 (1.4) || Рецензирование №4 (0.3) || Дополнительно || Сумма за семестр || Оценка | ||
|- | |- | ||
- | | Апишев Мурат || 0.6 || || || || || || || | + | | Апишев Мурат || 0.6 || 0.6 || 1.4 || || 1.4 || || 1.5 || 5.5 || 5 |
|- | |- | ||
- | | | + | | Готман Мария || 0.6 || 0.45 || 1.4 || 0 (Колмаков) || 1.4 || 0.3 (Сендерович) || 0.5 || 4.65 || 3 |
|- | |- | ||
- | | | + | | Дойков Никита || 0.6 || 0.55 || 1.4 || 0.3 (Сендерович) || 1.4 || || 2.5 || 6.75 || 5 |
|- | |- | ||
- | | | + | | Козлов Владимир || 0.6 || 0 || 1.1 || 0.3 (Славнов) || 0.7 || || || 2.7 || 4 |
|- | |- | ||
- | | | + | | Колмаков Евгений || 0.6 || 0.6 || 1.4 || 0.3 (Тюрин) || 1.4 || 0.3 (Славнов) || 1.1 || 5.7 || 5 |
- | + | ||
- | + | ||
|- | |- | ||
| Корольков Михаил || || || || || || || || || | | Корольков Михаил || || || || || || || || || | ||
|- | |- | ||
- | | Лисяной Александр || 0.6 || || || || || || || | + | | Лисяной Александр || 0.6 || 0.6 || 1.4 || 0.3 (Чистяков) || 1.4 || 0.3 (Шапулин) || 0.5 || 5.1 || 4 |
|- | |- | ||
- | | Лукашкина Юлия || 0.6 || || || || || || || | + | | Лукашкина Юлия || 0.6 || 0.6 || 1.4 || || 1.35 || 0.3 (Чистяков) || 0.5 || 4.75 || 4 |
|- | |- | ||
- | | Ожерельев Илья || | + | | Ожерельев Илья || 0 || 0.3 || 0.75 || || 1.45 || || || 2.5 || 3 |
|- | |- | ||
- | | Родоманов Антон || || || || || || || || || | + | | Родоманов Антон || || 0.35 || 1.05 || 0.3 (Козлов) || 1.2 || 0 (Хальман) || 1 || 3.9 || 4 |
|- | |- | ||
- | | Сендерович Никита || 0.6 || | + | | Сендерович Никита || 0.6 || 0.6 || 1.4 || 0.3 (Шапулин) || 1.4 || 0.3 (Лисяной) || 1.1 || 5.7 || 5 |
|- | |- | ||
- | | Славнов Константин || 0.6 || || | + | | Славнов Константин || 0.6 || 0.6 || 1.4 || (Хальман) || 1.4 || 0.3 (Готман) || 1.3 || 5.6 || 5 |
|- | |- | ||
- | | Тюрин Александр || 0.6 || || | + | | Тюрин Александр || 0.6 || 0.6 || 1.4 || 0 (Лисяной) || 1.4 || 0.3 (Колмаков) || 0.5 || 4.8 || 4 |
|- | |- | ||
- | | Хальман Михаил || 0.35 || || || || || || || | + | | Хальман Михаил || 0.35 || 0.45 || || ?0.3 (Родоманов) || 1.2 || 0.3 (Родоманов) || 2.5 || 4.8 || 5 |
|- | |- | ||
- | | Хомутов Никита || || || | + | | Хомутов Никита || || 0 || 0.75 || || 1.75 || || 0.5 || 3 || |
|- | |- | ||
- | | Чистяков Александр || || || | + | | Чистяков Александр || || 0.45 || 1.4 ||0.3 (Дойков) || 1.3 || 0.3 (Тюрин) || 1.5 || 5.25 || 5 |
|- | |- | ||
- | | Шапулин Андрей || 0.6 || || | + | | Шапулин Андрей || 0.6 || 0.55 || 1.4 || 0.3 (Готман) || 1.4 || 0.3 (Лукашкина) || 1.1 || 5.65 || 5 |
|- | |- | ||
|} | |} | ||
Строка 44: | Строка 42: | ||
* Штраф за просрочку заданий начисляется из расчёта 0.05 балла за сутки. | * Штраф за просрочку заданий начисляется из расчёта 0.05 балла за сутки. | ||
* Для допуска к экзамену необходимо сдать как минимум два задания: хотя бы одно из первых двух и хотя бы одно из последних двух. | * Для допуска к экзамену необходимо сдать как минимум два задания: хотя бы одно из первых двух и хотя бы одно из последних двух. | ||
+ | * Каждое задание выдаётся только по заявке. Если задание выдано, но не решалось, начисляется штраф в размере его стоимости. | ||
* Балл за рецензирование можно получить только при условии сдачи соответствующего задания. | * Балл за рецензирование можно получить только при условии сдачи соответствующего задания. | ||
* Источники дополнительных баллов: | * Источники дополнительных баллов: | ||
Строка 49: | Строка 48: | ||
** мини-курс «Statistical Inference» (https://www.coursera.org/course/statinference) — 0.3 балла; | ** мини-курс «Statistical Inference» (https://www.coursera.org/course/statinference) — 0.3 балла; | ||
** мини-курс «Regression Models» (https://www.coursera.org/course/regmods) — 0.3 балла; | ** мини-курс «Regression Models» (https://www.coursera.org/course/regmods) — 0.3 балла; | ||
+ | ** курс «Эконометрика» (https://www.coursera.org/course/econometrics) — 1 балл; | ||
** курс «Methods of model selection» (http://ium.mccme.ru/s15/s15-spokoinyii.html) — 2 балла. | ** курс «Methods of model selection» (http://ium.mccme.ru/s15/s15-spokoinyii.html) — 2 балла. | ||
* Итоговая оценка по курсу — минимум из суммы баллов за семестр и оценкой на экзамене. Округление делается по стандартным правилам. | * Итоговая оценка по курсу — минимум из суммы баллов за семестр и оценкой на экзамене. Округление делается по стандартным правилам. | ||
Строка 70: | Строка 70: | ||
Задание принимается до '''23:59 5.03'''. | Задание принимается до '''23:59 5.03'''. | ||
- | + | ||
= Задания 2-4. Работа с реальными данными = | = Задания 2-4. Работа с реальными данными = | ||
Требуется подобрать и применить наилучший статистический метод, позволяющий ответить на вопрос прикладной задачи; обосновать выбор метода, его применимость и оптимальность. Помимо выводов, касающихся математических особенностей решения, необходимо в терминах предметной области сформулировать выводы, которые могли бы быть понятны гипотетическому заказчику-нематематику. | Требуется подобрать и применить наилучший статистический метод, позволяющий ответить на вопрос прикладной задачи; обосновать выбор метода, его применимость и оптимальность. Помимо выводов, касающихся математических особенностей решения, необходимо в терминах предметной области сформулировать выводы, которые могли бы быть понятны гипотетическому заказчику-нематематику. | ||
Строка 76: | Строка 76: | ||
Необходимо сдать: Rmd и сгенерированный по нему html/pdf-файл с подробным отчётом по проведённому исследованию, содержащий визуализацию исходных данных, описания и выводы каждого этапа анализа — используемые методы, обоснование их применимости, графики. | Необходимо сдать: Rmd и сгенерированный по нему html/pdf-файл с подробным отчётом по проведённому исследованию, содержащий визуализацию исходных данных, описания и выводы каждого этапа анализа — используемые методы, обоснование их применимости, графики. | ||
- | По заданиям 3 и 4 отчёт каждого студента рецензируется назначенным одногруппником. Задачей рецензента является проверка корректности выбора метода решения, полноты его применения и понятности изложения. Рецензент получает | + | По заданиям 3 и 4 отчёт каждого студента рецензируется назначенным одногруппником. Задачей рецензента является проверка корректности выбора метода решения, полноты его применения и понятности изложения. Рецензент получает баллы, если: |
* его собственная работа засчитана; | * его собственная работа засчитана; | ||
* либо в рецензируемой работе устранены все недостатки и она принимается с первого раза, либо указан полный список недостатков работы, устранить которые не удалось. | * либо в рецензируемой работе устранены все недостатки и она принимается с первого раза, либо указан полный список недостатков работы, устранить которые не удалось. | ||
Строка 83: | Строка 83: | ||
[[Статистический анализ данных (курс лекций, К.В.Воронцов)/2015/2|Постановки задач]]. | [[Статистический анализ данных (курс лекций, К.В.Воронцов)/2015/2|Постановки задач]]. | ||
- | Задание принимается до '''23:59 '''. | + | Задание принимается до '''23:59 22.03'''. |
== Задание 3. Регрессия == | == Задание 3. Регрессия == | ||
[[Статистический анализ данных (курс лекций, К.В.Воронцов)/2015/3|Постановки задач]]. | [[Статистический анализ данных (курс лекций, К.В.Воронцов)/2015/3|Постановки задач]]. | ||
- | Предварительные версии отчётов принимаются до '''23:59 ''', финальные, по результатам работы с рецензентом — до '''23:59 '''. | + | Предварительные версии отчётов принимаются до '''23:59 29.03''', финальные, по результатам работы с рецензентом — до '''23:59 5.04'''. |
== Задание 4. Прогнозирование == | == Задание 4. Прогнозирование == | ||
Строка 94: | Строка 94: | ||
* Time Series Data Library на https://datamarket.com/data/list/?q=provider:tsdl; | * Time Series Data Library на https://datamarket.com/data/list/?q=provider:tsdl; | ||
* http://www.comp-engine.org/timeseries/browse-data-by-category из категории real-world. | * http://www.comp-engine.org/timeseries/browse-data-by-category из категории real-world. | ||
+ | * http://sophist.hse.ru/hse/nindex.shtml | ||
Рекомендуется выбирать ряд от нескольких сотен до нескольких тысяч отсчётов с целым периодом сезонности не больше 20 отсчётов. | Рекомендуется выбирать ряд от нескольких сотен до нескольких тысяч отсчётов с целым периодом сезонности не больше 20 отсчётов. | ||
- | Выбранный ряд нужно занести в таблицу | + | Выбранный ряд нужно занести в таблицу http://bit.ly/1BOGt4A |
+ | Прогноз нужно построить на 1/10 длины ряда с округлением до целого числа сезонных периодов. | ||
- | Предварительные версии отчётов принимаются до '''23:59 ''', финальные, по результатам работы с рецензентом — до '''23:59 '''. | + | Предварительные версии отчётов принимаются до '''23:59 11.04''', финальные, по результатам работы с рецензентом — до '''23:59 17.04'''. |
- | + | ||
= Ссылки = | = Ссылки = |
Текущая версия
|
Оценки
Студент | №1 (0.6) | №2 (0.6) | №3 (1.4) | Рецензирование №3 (0.3) | №4 (1.4) | Рецензирование №4 (0.3) | Дополнительно | Сумма за семестр | Оценка |
---|---|---|---|---|---|---|---|---|---|
Апишев Мурат | 0.6 | 0.6 | 1.4 | 1.4 | 1.5 | 5.5 | 5 | ||
Готман Мария | 0.6 | 0.45 | 1.4 | 0 (Колмаков) | 1.4 | 0.3 (Сендерович) | 0.5 | 4.65 | 3 |
Дойков Никита | 0.6 | 0.55 | 1.4 | 0.3 (Сендерович) | 1.4 | 2.5 | 6.75 | 5 | |
Козлов Владимир | 0.6 | 0 | 1.1 | 0.3 (Славнов) | 0.7 | 2.7 | 4 | ||
Колмаков Евгений | 0.6 | 0.6 | 1.4 | 0.3 (Тюрин) | 1.4 | 0.3 (Славнов) | 1.1 | 5.7 | 5 |
Корольков Михаил | |||||||||
Лисяной Александр | 0.6 | 0.6 | 1.4 | 0.3 (Чистяков) | 1.4 | 0.3 (Шапулин) | 0.5 | 5.1 | 4 |
Лукашкина Юлия | 0.6 | 0.6 | 1.4 | 1.35 | 0.3 (Чистяков) | 0.5 | 4.75 | 4 | |
Ожерельев Илья | 0 | 0.3 | 0.75 | 1.45 | 2.5 | 3 | |||
Родоманов Антон | 0.35 | 1.05 | 0.3 (Козлов) | 1.2 | 0 (Хальман) | 1 | 3.9 | 4 | |
Сендерович Никита | 0.6 | 0.6 | 1.4 | 0.3 (Шапулин) | 1.4 | 0.3 (Лисяной) | 1.1 | 5.7 | 5 |
Славнов Константин | 0.6 | 0.6 | 1.4 | (Хальман) | 1.4 | 0.3 (Готман) | 1.3 | 5.6 | 5 |
Тюрин Александр | 0.6 | 0.6 | 1.4 | 0 (Лисяной) | 1.4 | 0.3 (Колмаков) | 0.5 | 4.8 | 4 |
Хальман Михаил | 0.35 | 0.45 | ?0.3 (Родоманов) | 1.2 | 0.3 (Родоманов) | 2.5 | 4.8 | 5 | |
Хомутов Никита | 0 | 0.75 | 1.75 | 0.5 | 3 | ||||
Чистяков Александр | 0.45 | 1.4 | 0.3 (Дойков) | 1.3 | 0.3 (Тюрин) | 1.5 | 5.25 | 5 | |
Шапулин Андрей | 0.6 | 0.55 | 1.4 | 0.3 (Готман) | 1.4 | 0.3 (Лукашкина) | 1.1 | 5.65 | 5 |
- Задание считается сданным на момент получения письма с отчётом при условии отсутствия необходимости внесения дополнений и исправлений.
- Штраф за просрочку заданий начисляется из расчёта 0.05 балла за сутки.
- Для допуска к экзамену необходимо сдать как минимум два задания: хотя бы одно из первых двух и хотя бы одно из последних двух.
- Каждое задание выдаётся только по заявке. Если задание выдано, но не решалось, начисляется штраф в размере его стоимости.
- Балл за рецензирование можно получить только при условии сдачи соответствующего задания.
- Источники дополнительных баллов:
- мини-курс «R Programming» (https://www.coursera.org/course/rprog) — 0.5 балла;
- мини-курс «Statistical Inference» (https://www.coursera.org/course/statinference) — 0.3 балла;
- мини-курс «Regression Models» (https://www.coursera.org/course/regmods) — 0.3 балла;
- курс «Эконометрика» (https://www.coursera.org/course/econometrics) — 1 балл;
- курс «Methods of model selection» (http://ium.mccme.ru/s15/s15-spokoinyii.html) — 2 балла.
- Итоговая оценка по курсу — минимум из суммы баллов за семестр и оценкой на экзамене. Округление делается по стандартным правилам.
- Студенты, не набравшие баллов достаточно для получения положительной оценки, к экзамену не допускаются. На каждой следующей итерации сдачи экзамена максимальный балл каждой задачи уменьшается вдвое. При этом можно брать по несколько задач каждого задания, но не больше , где — номер итерации сдачи экзамена. Баллы за рецензирование можно получить только на первой итерации.
Задание 1. Исследование свойств одномерных статистических критериев на модельных данных
Необходимо провести исследование одного или нескольких классических критериев проверки статистических гипотез. Интерес представляет поведение достигаемого уровня значимости (p-value) как функции размера выборок и параметров распределения. В соответствии с индивидуальными параметрами задания необходимо указанным способом сгенерировать одну или несколько выборок из заданного распределения, выполнить проверку гипотезы при помощи соответствующего критерия, а затем многократно повторить эту процедуру для различных значений параметров. По результатам расчётов необходимо построить требуемые в задании графики, среди которых могут быть следующие:
- график зависимости достигаемого уровня значимости от значений параметров при однократном проведении эксперимента;
- график зависимости достигаемого уровня значимости одного или двух критериев от значений параметров, усреднённого по большому количеству повторений эксперимента (например, по 1000 повторений);
- график с эмпирическими оценками мощности одного или двух критериев для разных значений параметров.
В качестве оценки мощности принимается доля отвержений нулевой гипотезы среди всех проверок. То есть, если эксперимент повторялся раз для каждого набора значений параметров, и в из случаев гипотеза была отвергнута на некотором фиксированном уровне значимости (примем ), оценкой мощности будет отношение
Необходимо сдать: Rmd и сгенерированный по нему html/pdf-файл с описанием алгоритма, построенными графиками и выводами (объяснение полученных результатов моделирования, границы применимости критерия и т. д.).
Задание принимается до 23:59 5.03.
Задания 2-4. Работа с реальными данными
Требуется подобрать и применить наилучший статистический метод, позволяющий ответить на вопрос прикладной задачи; обосновать выбор метода, его применимость и оптимальность. Помимо выводов, касающихся математических особенностей решения, необходимо в терминах предметной области сформулировать выводы, которые могли бы быть понятны гипотетическому заказчику-нематематику.
Необходимо сдать: Rmd и сгенерированный по нему html/pdf-файл с подробным отчётом по проведённому исследованию, содержащий визуализацию исходных данных, описания и выводы каждого этапа анализа — используемые методы, обоснование их применимости, графики.
По заданиям 3 и 4 отчёт каждого студента рецензируется назначенным одногруппником. Задачей рецензента является проверка корректности выбора метода решения, полноты его применения и понятности изложения. Рецензент получает баллы, если:
- его собственная работа засчитана;
- либо в рецензируемой работе устранены все недостатки и она принимается с первого раза, либо указан полный список недостатков работы, устранить которые не удалось.
Задание 2. Проверка гипотез
Задание принимается до 23:59 22.03.
Задание 3. Регрессия
Предварительные версии отчётов принимаются до 23:59 29.03, финальные, по результатам работы с рецензентом — до 23:59 5.04.
Задание 4. Прогнозирование
Для прогнозирования необходимо самостоятельно выбрать уникальный временной ряд из любого источника, например:
- Time Series Data Library на https://datamarket.com/data/list/?q=provider:tsdl;
- http://www.comp-engine.org/timeseries/browse-data-by-category из категории real-world.
- http://sophist.hse.ru/hse/nindex.shtml
Рекомендуется выбирать ряд от нескольких сотен до нескольких тысяч отсчётов с целым периодом сезонности не больше 20 отсчётов. Выбранный ряд нужно занести в таблицу http://bit.ly/1BOGt4A Прогноз нужно построить на 1/10 длины ряда с округлением до целого числа сезонных периодов.
Предварительные версии отчётов принимаются до 23:59 11.04, финальные, по результатам работы с рецензентом — до 23:59 17.04.
Ссылки
- psad.homework@gmail.com
- Статистический анализ данных (курс лекций, К.В.Воронцов)