Статистический анализ данных (курс лекций, К.В.Воронцов)/2014, ФУПМ

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
м (Оценки)
м (Оценки)
Строка 4: Строка 4:
! | Студент || №1 (1 б.) || №2 (1 б.) || №3 (2 б.) || Рецензирование №3 (1 б.) || №4 (2 б.) || Рецензирование №4 (1 б.) || Дополнительно || <tex>\sum</tex>
! | Студент || №1 (1 б.) || №2 (1 б.) || №3 (2 б.) || Рецензирование №3 (1 б.) || №4 (2 б.) || Рецензирование №4 (1 б.) || Дополнительно || <tex>\sum</tex>
|-
|-
-
|| Старожилец Всеволод || 1 || 1 || 2 || 1 (Рыскина) || || || 2|| 7
+
|| Старожилец Всеволод || 1 || 1 || 2 || 1 (Рыскина) || || (Мангатаев) || 2|| 7
|-
|-
-
|| Вялый Евгений || 0.9 || || 1.4 || 0 (Петров) || || || 2 || 4.3
+
|| Вялый Евгений || 0.9 || || 1.4 || 0 (Петров) || || (Бескровный) || 2 || 4.3
|-
|-
-
|| Гончаров Фёдор || 1 || 1 || 2 || (Бескровный)|| || || 4 || 8
+
|| Гончаров Фёдор || 1 || 1 || 2 || (Бескровный)|| || (Старожилец) || 4 || 8
|-
|-
|| Каледин Станислав || 0.8 || 1 || 1.8 || 1 (Балицкий) || || || || 4.6
|| Каледин Станислав || 0.8 || 1 || 1.8 || 1 (Балицкий) || || || || 4.6
|-
|-
-
|| Капаев Евгений || 1 || 0.9 || || || || || 2|| 3.9
+
|| Капаев Евгений || 1 || 0.9 || || || || (Вялый) || 2|| 3.9
|-
|-
|| Коновалов Андрей || 1 || 1 || 1.8 || 1 (Неклюдов) || || || 4 || 8.8
|| Коновалов Андрей || 1 || 1 || 1.8 || 1 (Неклюдов) || || || 4 || 8.8
|-
|-
-
|| Кузнецов Роман || 1 || 1 || 1.9 || 0 (Шепелев) || || || 2 || 5.9
+
|| Кузнецов Роман || 1 || 1 || 1.9 || 0 (Шепелев) || || (Трофимов) || 2 || 5.9
|-
|-
-
|| Петров Михаил || 0.7|| || 1.8 || 0 (Хрипко) || || || 2 || 4.5
+
|| Петров Михаил || 0.7|| || 1.8 || 0 (Хрипко) || || (Соколова) || 2 || 4.5
|-
|-
-
|| Хрипко Кирилл || 0.8 || 1 || || 0 (Яшков) || || || ||1.8
+
|| Хрипко Кирилл || 0.8 || 1 || || 0 (Яшков) || || (Капаев) || ||1.8
|-
|-
|| Шепелев Денис || 1 || 1 || 1.8 || 1 (Харченко) || || || || 4.8
|| Шепелев Денис || 1 || 1 || 1.8 || 1 (Харченко) || || || || 4.8
|-
|-
-
|| Вдовина Евгения || 1 || 0.9|| 1.8 || 0 (Коновалов) || || || || 3.7
+
|| Вдовина Евгения || 1 || 0.9|| 1.8 || 0 (Коновалов) || || (Рыскина) || || 3.7
|-
|-
|| Воронов Сергей || 1 || 1 || 2 || 1 (Перекрестенко) || || || 4 || 9
|| Воронов Сергей || 1 || 1 || 2 || 1 (Перекрестенко) || || || 4 || 9
Строка 30: Строка 30:
|| Гринчук Олег || 1|| 1 || 2 || 0 (Папанов) || || || 2 || 6
|| Гринчук Олег || 1|| 1 || 2 || 0 (Папанов) || || || 2 || 6
|-
|-
-
|| Катруца Александр || 1 || 1 || 2 || 1 (Пушняков) || || || 4 || 9
+
|| Катруца Александр || 1 || 1 || 2 || 1 (Пушняков) || || (Костин) || 4 || 9
|-
|-
-
|| Кащеева Мария || 0.9 || 0.8 || || ?1 (Вялый)|| || || ||1.7
+
|| Кащеева Мария || 0.9 || 0.8 || || ?1 (Вялый)|| || (Вдовина) || ||1.7
|-
|-
-
|| Костин Александр || 0.5 || || || || || || ||0.5
+
|| Костин Александр || 0.5 || || || || || (Хрипко) || ||0.5
|-
|-
|| Неклюдов Кирилл || 1 || 1 || 2 || 1 (Кащеева)|| || || 4 || 9
|| Неклюдов Кирилл || 1 || 1 || 2 || 1 (Кащеева)|| || || 4 || 9
Строка 40: Строка 40:
|| Перекрестенко Дмитрий|| 1|| 1 || 2|| 0 (Вдовина) || || || 2|| 6
|| Перекрестенко Дмитрий|| 1|| 1 || 2|| 0 (Вдовина) || || || 2|| 6
|-
|-
-
|| Пушняков Алексей || 1 || 1 || 2 || 1 (Старожилец)|| || || 4 || 9
+
|| Пушняков Алексей || 1 || 1 || 2 || 1 (Старожилец)|| || (Довгаль) || 4 || 9
|-
|-
-
|| Рыскина Мария || 1 || 1 || 2 || 1 (Довгаль) || || || 2 || 7
+
|| Рыскина Мария || 1 || 1 || 2 || 1 (Довгаль) || || (Пушняков) || 2 || 7
|-
|-
|| Яшков Даниил || 1 || 1 || 2 || 1 (Воронов) || || || 4 || 9
|| Яшков Даниил || 1 || 1 || 2 || 1 (Воронов) || || || 4 || 9
|-
|-
-
|| Бескровный Александр || 0.7|| 0.6 || || ?1 (Гончаров)|| || || ||1.3
+
|| Бескровный Александр || 0.7|| 0.6 || || ?1 (Гончаров)|| || (Кузнецов) || ||1.3
|-
|-
|| Поляков Сергей || || 1 || || 0 (Трофимов) || || || || 1
|| Поляков Сергей || || 1 || || 0 (Трофимов) || || || || 1
|-
|-
-
|| Соколова Евгения || 1 || 1 || || || || || 2|| 4
+
|| Соколова Евгения || 1 || 1 || || || || (Катруца) || 2|| 4
|-
|-
|| Харченко Наталья || 1|| 1 || 2 || 1 (Кузнецов)|| || || 2|| 7
|| Харченко Наталья || 1|| 1 || 2 || 1 (Кузнецов)|| || || 2|| 7
Строка 56: Строка 56:
|| Балицкий Алексей || 1 || 1 || 2 || 1 (Мангатаев) || || || 4 || 9
|| Балицкий Алексей || 1 || 1 || 2 || 1 (Мангатаев) || || || 4 || 9
|-
|-
-
|| Довгаль Сергей || 1 || 0.9 || 1.7 || (Поляков) || || || 2 || 5.6
+
|| Довгаль Сергей || 1 || 0.9 || 1.7 || (Поляков) || || (Гончаров) || 2 || 5.6
|-
|-
-
|| Трофимов Михаил || 1 || 1 || 1.8 || 1 (Катруца) || || || 2 ||6.8
+
|| Трофимов Михаил || 1 || 1 || 1.8 || 1 (Катруца) || || (Кащеева) || 2 ||6.8
|-
|-
|| Папанов Артём || 1 || 1 || 1.8 || 1 (Гринчук) || || || 2 || 6.8
|| Папанов Артём || 1 || 1 || 1.8 || 1 (Гринчук) || || || 2 || 6.8
|-
|-
-
|| Мангатаев Доржи || 0.9 || 1 || 2 || 0 (Каледин) || || || || 3.9
+
|| Мангатаев Доржи || 0.9 || 1 || 2 || 0 (Каледин) || || (Петров) || || 3.9
|}
|}
* Задание считается сданным на момент получения проверяющим письма с отчётом (и кодом, если это указано в задании), при условии отсутствия необходимости внесения дополнений и исправлений.
* Задание считается сданным на момент получения проверяющим письма с отчётом (и кодом, если это указано в задании), при условии отсутствия необходимости внесения дополнений и исправлений.

Версия 05:00, 6 мая 2014

Содержание

Оценки

Студент №1 (1 б.) №2 (1 б.) №3 (2 б.) Рецензирование №3 (1 б.) №4 (2 б.) Рецензирование №4 (1 б.) Дополнительно \sum
Старожилец Всеволод 1 1 2 1 (Рыскина) (Мангатаев) 2 7
Вялый Евгений 0.9 1.4 0 (Петров) (Бескровный) 2 4.3
Гончаров Фёдор 1 1 2 (Бескровный) (Старожилец) 4 8
Каледин Станислав 0.8 1 1.8 1 (Балицкий) 4.6
Капаев Евгений 1 0.9 (Вялый) 2 3.9
Коновалов Андрей 1 1 1.8 1 (Неклюдов) 4 8.8
Кузнецов Роман 1 1 1.9 0 (Шепелев) (Трофимов) 2 5.9
Петров Михаил 0.7 1.8 0 (Хрипко) (Соколова) 2 4.5
Хрипко Кирилл 0.8 1 0 (Яшков) (Капаев) 1.8
Шепелев Денис 1 1 1.8 1 (Харченко) 4.8
Вдовина Евгения 1 0.9 1.8 0 (Коновалов) (Рыскина) 3.7
Воронов Сергей 1 1 2 1 (Перекрестенко) 4 9
Гринчук Олег 1 1 2 0 (Папанов) 2 6
Катруца Александр 1 1 2 1 (Пушняков) (Костин) 4 9
Кащеева Мария 0.9 0.8  ?1 (Вялый) (Вдовина) 1.7
Костин Александр 0.5 (Хрипко) 0.5
Неклюдов Кирилл 1 1 2 1 (Кащеева) 4 9
Перекрестенко Дмитрий 1 1 2 0 (Вдовина) 2 6
Пушняков Алексей 1 1 2 1 (Старожилец) (Довгаль) 4 9
Рыскина Мария 1 1 2 1 (Довгаль) (Пушняков) 2 7
Яшков Даниил 1 1 2 1 (Воронов) 4 9
Бескровный Александр 0.7 0.6  ?1 (Гончаров) (Кузнецов) 1.3
Поляков Сергей 1 0 (Трофимов) 1
Соколова Евгения 1 1 (Катруца) 2 4
Харченко Наталья 1 1 2 1 (Кузнецов) 2 7
Балицкий Алексей 1 1 2 1 (Мангатаев) 4 9
Довгаль Сергей 1 0.9 1.7 (Поляков) (Гончаров) 2 5.6
Трофимов Михаил 1 1 1.8 1 (Катруца) (Кащеева) 2 6.8
Папанов Артём 1 1 1.8 1 (Гринчук) 2 6.8
Мангатаев Доржи 0.9 1 2 0 (Каледин) (Петров) 3.9
  • Задание считается сданным на момент получения проверяющим письма с отчётом (и кодом, если это указано в задании), при условии отсутствия необходимости внесения дополнений и исправлений.
  • Штраф за просрочку сдачи заданий начисляется из расчета 0.1 балла за сутки.
  • Для получения зачёта необходимо сдать как минимум два задания: хотя бы одно из первых двух и хотя бы одно из последних двух.
  • Балл за рецензирование можно получить только при условии сдачи соответствующего задания.
  • Способы получения дополнительных баллов:

Доклады

Задание 1. Исследование свойств одномерных статистических критериев на модельных данных

Необходимо провести исследование одного или нескольких классических критериев проверки статистических гипотез. Интерес представляет поведение достигаемого уровня значимости (p-value) как функции размера выборок и параметров распределения. В соответствии с индивидуальными параметрами задания необходимо указанным способом сгенерировать одну или несколько выборок из заданного распределения, выполнить проверку гипотезы при помощи соответствующего критерия, а затем многократно повторить эту процедуру для различных значений параметров. По результатам расчётов необходимо построить требуемые в задании графики, среди которых могут быть следующие:

  1. график зависимости достигаемого уровня значимости от значений параметров при однократном проведении эксперимента;
  2. график зависимости достигаемого уровня значимости одного или двух критериев от значений параметров, усреднённого по большому количеству повторений эксперимента (например, по 1000 повторений);
  3. график с эмпирическими оценками мощности одного или двух критериев для разных значений параметров.

В качестве оценки мощности принимается доля отвержений нулевой гипотезы среди всех проверок. То есть, если эксперимент повторялся k раз для каждого набора значений параметров, и в m из k случаев гипотеза была отвергнута на некотором фиксированном уровне значимости \alpha (примем \alpha=0.05), оценкой мощности будет отношение m/k.

Необходимо сдать: выполненный в Tex или Microsoft Word отчёт с описанием алгоритма, построенными графиками и выводами (объяснение полученных результатов моделирования, границы применимости критерия и т. д.), а также код на R, Матлабе или Питоне, при запуске которого на экран выводятся графики, соответствующие имеющимся в отчёте.

Постановки задач.

Пример решения: чувствительность двухвыборочного критерия Стьюдента.

Задание принимается до 23:59 03.03.

Задания 2-4. Работа с реальными данными

Требуется подобрать и применить наилучший статистический метод, позволяющий ответить на вопрос прикладной задачи; обосновать выбор метода, его применимость и оптимальность. Помимо выводов, касающихся математических особенностей решения, необходимо в терминах предметной области сформулировать выводы, которые могли бы быть понятны гипотетическому заказчику-нематематику.

Необходимо сдать: подробный отчёт по проведённому исследованию, содержащий визуализацию исходных данных, описания и выводы каждого этапа анализа — используемые методы, обоснование их применимости, графики.

По заданиям 3 и 4 отчёт каждого студента рецензируется назначенным одногруппником. Задачей рецензента является проверка корректности выбора метода решения, полноты его применения и понятности изложения. Рецензент получает балл, если:

  • его собственная работа засчитана;
  • либо в рецензируемой работе устранены все недостатки и она принимается с первого раза, либо указан полный список недостатков работы, устранить которые не удалось.

Задание 2. Проверка гипотез

Постановки задач.

Задание принимается до 23:59 2.04.

Задание 3. Регрессия

Постановки задач.

Предварительные версии отчётов принимаются до 23:59 20.04, финальные, по результатам работы с рецензентом — до 23:59 28.04.

Задание 4. Прогнозирование

Постановки задач.

Предварительные версии отчётов принимаются до 23:59 5.05, финальные, по результатам работы с рецензентом — до 23:59 12.05.

Ссылки

Личные инструменты