Прикладной статистический анализ данных (курс лекций, 2017)
Материал из MachineLearning.
(→Практические задания) |
(→Экзамен) |
||
(46 промежуточных версий не показаны.) | |||
Строка 1: | Строка 1: | ||
- | Лекторы: К. Воронцов, М. Хальман, Ш. Ишкина, А. Романенко, П. Швечиков. | + | Лекторы: К. Воронцов, М. Хальман, Ш. Ишкина, А. Романенко, П. Швечиков. |
+ | [[Прикладной статистический анализ данных (ФУПМ, курс лекций, 2017)|Аналогичный курс в МФТИ]] | ||
- | |||
- | Занятия начинаются в 10:30, если отдельно не указано иное. | + | == Экзамен == |
+ | '''Обратите внимание на перенос времени начала экзамена!''' | ||
+ | |||
+ | '''Экзамен по данному курсу назначен на 28 апреля, 10:30 и будет проходить в 704 аудитории. ''' | ||
+ | |||
+ | Опаздывать на экзамен '''в пределах 15 минут''' полезно, ибо проверяющих сильно меньше чем студентов, поэтому равномерное распределение студентов по времени в промежутке от 10:30 до 10:45 даже приветствуется. | ||
+ | |||
+ | Пожалуйста, не опаздывайте на экзамен более чем на час! Такие опоздавшие без уважительной причины с большой долей вероятности допущены к экзамену не будут. | ||
+ | |||
+ | |||
+ | Структура экзамена содержит в себе два блока: | ||
+ | |||
+ | 1. Теоретический вопрос (2 балла) и практическая задача (2 балла) | ||
+ | |||
+ | 2. Два дополнительных вопроса по всему курсу (2 x 3 балла) | ||
+ | |||
+ | При подготовке ответа на первый блок можно пользоваться любыми материалами (в том числе и слайдами / лекциями). Время на подготовку к ответу не должно превышать 1.5 часа. | ||
+ | При ответе на первый блок можно пользоваться только своими записями. "Практичность" задачи будет заключаться в том, что Вам будет выдана туманная постановка задачи из реальной жизни и будет проверяться ваше умение формализовать неясную постановку "заказчика", а также умение сравнить методы, которые Вы считаете приемлемыми для решения формализованной задачи. В качестве подготовки к практической части экзамена полезно просмотреть домашние задачи ваших коллег, т.к. каждому студенту в течение курса выдавались уникальные задания. | ||
+ | |||
+ | Второй блок начинается сразу после того, как студент закончил ответ на первый блок. При ответе на вопросы второго блока ничем пользоваться нельзя. | ||
+ | Второй блок будет содержать общие вопросы на понимание предмета курса и могут включать важные детали курса. | ||
+ | Суммарная полученная оценка (максимум 10 баллов) делится пополам и используется в общей итоговой формуле оценки за курс по правилу, указанному ниже на этой странице. | ||
+ | |||
+ | Заранее выложенных билетов не будет. Общий охват материала обоими блоками будет стремиться к полному курсу, поэтому готовиться имеет смысл по всем материалам курса. В качестве подготовки к экзамену убедитесь, что вы | ||
+ | |||
+ | 1. понимаете интуицию методов, которые были на лекции | ||
+ | |||
+ | 2. можете предложить альтернативы решения почти к каждому методу, который вам рассказывался | ||
+ | |||
+ | 3. составили общую картину курса в голове, определив, какие методы нужны для каких задач | ||
+ | |||
+ | |||
+ | |||
+ | Удачи на экзамене! | ||
+ | |||
+ | == Расписание занятий == | ||
+ | |||
+ | Занятия начинаются в 10:30, если отдельно не указано иное. | ||
{| class="wikitable" | {| class="wikitable" | ||
|- | |- | ||
- | ! Дата | + | ! Дата |
! Тема | ! Тема | ||
- | ! Аудитория (лекция | + | ! Аудитория (лекция/семинар) |
+ | ! Лекция | ||
+ | ! Семинар | ||
|- | |- | ||
| 10.02.2017 | | 10.02.2017 | ||
| Базовые распределения, статистики и их свойства; Оценка параметров | | Базовые распределения, статистики и их свойства; Оценка параметров | ||
- | | | + | | 607 |
+ | | [[Media:Psad_intro_2017.pdf|Слайды]] | ||
+ | | | ||
|- | |- | ||
| 13.02.2017 | | 13.02.2017 | ||
| Проверка параметрических гипотез | | Проверка параметрических гипотез | ||
- | | | + | | 526б |
+ | | [[Media:Psad_ht_parametric_2017.pdf|Слайды]] | ||
+ | | [https://www.dropbox.com/sh/vjy0y0qcb3unwsp/AAAd7siAWnl_PdBDMQyjy44Ca?dl=0 Задания на семинар] [https://www.dropbox.com/sh/cr1aen3y5fttzgl/AAB-BSnTAzfEbxwt0RBwGIuBa?dl=0 Решения] | ||
|- | |- | ||
| 17.02.2017 | | 17.02.2017 | ||
| Проверка непараметрических гипотез | | Проверка непараметрических гипотез | ||
- | | | + | | 704 |
+ | | [[Media:Psad_ht_nonparametric_2017.pdf|Слайды]] | ||
+ | | [https://www.dropbox.com/sh/j4gtf8znshc0y5x/AABiiptYFT96ZONE2gpPd7Tka?dl=0 Задания на семинар], [https://www.researchgate.net/file.PostFileLoader.html?id=577d4ec4217e2037694eb741&assetKey=AS%3A380920600252417%401467829956309 Статья про boostrap], [https://www.dropbox.com/sh/vk8k2m12hu1nv1b/AACpdjNdf489LRAgEpOgFQFqa?dl=0 Решения] | ||
|- | |- | ||
| 20.02.2017 | | 20.02.2017 | ||
| Множественная проверка гипотез | | Множественная проверка гипотез | ||
- | | | + | | 523/526б |
+ | | [[Media:Psad_mht_2017.pdf|Слайды]] | ||
+ | | [https://www.dropbox.com/sh/k2dxai2l0outlf2/AADAsbzBpb8IohQSIyF0R65Ra?dl=0 Задания на семинар], [https://www.dropbox.com/sh/fvsa9zxu9miqa9a/AAC30lVMTnfd_60Dd2rW8Nmfa?dl=0 Решения] | ||
|- | |- | ||
| 27.02.2017 | | 27.02.2017 | ||
| Анализ зависимостей | | Анализ зависимостей | ||
- | | | + | | 704 |
+ | | [[Media:Psad_corr_2017.pdf|Слайды]] | ||
+ | |[https://www.dropbox.com/sh/9tfxs3sx0gs9gux/AAAuR7d7_zzW3e6CxPpbmIama?dl=0 Задания на семинар], [https://www.dropbox.com/sh/qa4aualop59wak5/AABjI4jmjaSnyoln6h2xW6h-a?dl=0 Решения] | ||
+ | |- | ||
+ | | 03.03.2017 | ||
+ | | Дисперсионный анализ | ||
+ | | 704 | ||
+ | | [[Media:Psad_anova_2017.pdf|Слайды]] | ||
+ | | [https://www.dropbox.com/sh/yiwrbnnf4rc7m2c/AADse-_vqGt5z_YQv3TrMb0Ta?dl=0 Задания на семинар], [https://www.dropbox.com/sh/tcgq1cwwjgbv6ba/AACMCmBzBQV_cws8WJ34o6Rra?dl=0 Решения] | ||
|- | |- | ||
| 10.03.2017 | | 10.03.2017 | ||
| Линейная регрессия | | Линейная регрессия | ||
- | | | + | | 704 |
+ | | [[Media:Psad_linreg_2017.pdf|Слайды]] | ||
+ | | [https://www.dropbox.com/sh/iuqkuprawp1lz4w/AACs3kd2sUByi0W3SQaS97WAa?dl=0 Задания на семинар], [https://www.dropbox.com/sh/mn5w33ozuugdv7o/AAB8g6t2lEJvZYcoVdHejO3fa?dl=0 Решения] | ||
+ | | | ||
|- | |- | ||
| 17.03.2017 | | 17.03.2017 | ||
| Дополнения и обобщения регрессии | | Дополнения и обобщения регрессии | ||
- | | | + | | 704 |
+ | | [[Media:Psad_otherreg_17.pdf | Слайды]] | ||
+ | |[https://www.dropbox.com/sh/4ikofejandyfp2t/AAC5cXPokjbrB60McjJuQhpba?dl=0 Задания на семинар], [https://www.dropbox.com/s/a370q3t14n9h3ty/CTG.Rmd?dl=0 Решения] | ||
|- | |- | ||
| 24.03.2017 | | 24.03.2017 | ||
| Прогнозирование временных рядов, часть 1 | | Прогнозирование временных рядов, часть 1 | ||
- | | | + | | 704 |
+ | | [[Media:Psad_ts_arima_2017.pdf|Слайды]] | ||
+ | |[https://yadi.sk/d/WUuqEGBC3GZ8Jh Задания на семинар], [https://yadi.sk/d/TF0EiiR_3GZ8X2 Решения] | ||
|- | |- | ||
| 31.03.2017 | | 31.03.2017 | ||
| Прогнозирование временных рядов, часть 2 | | Прогнозирование временных рядов, часть 2 | ||
- | | | + | | 704 |
+ | | [[Media:Psad_ts_ets_2017.pdf|Слайды]] | ||
+ | |[https://yadi.sk/d/xP5bbgCW3GZ8RW Задания на семинар], [https://yadi.sk/d/QM-11wqD3GZ8Sx Решения] | ||
|- | |- | ||
| 07.04.2017 | | 07.04.2017 | ||
| Причинно-следственные связи | | Причинно-следственные связи | ||
- | | | + | | 704 |
+ | |[[Media:Psad_causality_17.pdf | Слайды]] | ||
+ | |[https://www.dropbox.com/sh/0pa0tqyw04j8e7w/AAAqKupT2nqa5Rn6LCZH9wuFa?dl=0 Задания на семинар], [https://www.dropbox.com/sh/r3yd3xh01m3pdw4/AACywTD7bdVVG4vaAhFu8IGAa?dl=0 Решения], [https://www.youtube.com/watch?v=GTgZfCltMm8 Видео про CausalImpact] | ||
|} | |} | ||
+ | == Система выставления оценок по курсу == | ||
+ | По курсу запланировано 4 практических задания и экзамен. | ||
+ | Оценки за выполнение практических заданий суммируются. | ||
+ | Итоговая оценка за курс является '''минимум''' между суммарной оценкой за практические задания и оценкой за экзамен. | ||
+ | Округление итоговой оценки производится по правилу арифметического округления (4.5 => 5). | ||
- | + | Разбалловку по заданиям смотри в разделе '''Практические задания''' . | |
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | Разбалловку по заданиям смотри в разделе '''Практические задания''' . | + | |
- | + | ||
- | + | ||
== Практическая работа == | == Практическая работа == | ||
+ | |||
=== Основные ссылки === | === Основные ссылки === | ||
- | * Для работы на семинарах вам понадобятся ноутбуки с | + | * Для работы на семинарах вам понадобятся ноутбуки с [https://www.r-project.org установленными на них R] и [https://www.rstudio.com/products/rstudio/download/ RStudio]. |
* [http://swirlstats.com/students.html Инструкция по установке и запуску swirl] | * [http://swirlstats.com/students.html Инструкция по установке и запуску swirl] | ||
* [http://kbroman.org/knitr_knutshell/pages/Rmarkdown.html Некоторые основные опции Rmarkdown] | * [http://kbroman.org/knitr_knutshell/pages/Rmarkdown.html Некоторые основные опции Rmarkdown] | ||
- | * [http://adv-r.had.co.nz Advanced | + | * [http://adv-r.had.co.nz Advanced R — для тех, кто хочет разобраться в том, как работает R изнутри] |
- | === Минимальная практика === | + | === Минимальная практика === |
- | Для того, чтобы успешно выполнять практические задания и работать на семинаре, вам необходимо приобрести минимальные навыки работы в R. | + | Для того, чтобы успешно выполнять практические задания и работать на семинаре, вам необходимо приобрести минимальные навыки работы в R. |
Для этого скачайте R, RStudio, и установите swirl [[#Основные ссылки| (ссылки приведены выше)]]. | Для этого скачайте R, RStudio, и установите swirl [[#Основные ссылки| (ссылки приведены выше)]]. | ||
- | До семинара, убедитесь, пожалуйста, что вы прошли из блока | + | До семинара, убедитесь, пожалуйста, что вы прошли из блока «R Programming: The basics of programming in R» пакета swirl [http://swirlstats.com/students.html (инструкция по установке и запуску swirl)] следующие уроки: |
- | * 1: Basic Building Blocks | + | * 1: Basic Building Blocks |
- | * 4: Vectors | + | * 4: Vectors |
- | * 7: Matrices and Data Frames | + | * 7: Matrices and Data Frames |
- | * 10: lapply and sapply | + | * 10: lapply and sapply |
- | * 13: Simulation | + | * 13: Simulation |
- | * 15: Base Graphics | + | * 15: Base Graphics |
- | В противном случае на семинаре вы не сможете полноценно влиться в работу и получите дополнительные сложности при выполнении практических заданий. | + | В противном случае на семинаре вы не сможете полноценно влиться в работу и получите дополнительные сложности при выполнении практических заданий. |
Строка 105: | Строка 167: | ||
=== Практические задания === | === Практические задания === | ||
- | Дедлайн по | + | Дедлайн по заданию мягкий, за каждый день просрочки снимается 0.05 баллов. |
- | + | ||
+ | Просрочка считается исходя из чистого времени, которое студент выполняет задание (при подсчете просрочки не учитывается время, которое задание находилось на проверке). | ||
+ | Проверяющий может вернуть работу (с разъяснящими комментариями) на доработку (без потери баллов) не более одного раза. | ||
+ | |||
+ | В случае доработки задания проверяющий выставляет оценку исходя из выполнения условий задачи и требованных доработок. | ||
+ | |||
+ | Обратите внимание на то, что время, которое задание ожидает своей проверки в anytask, не включается во время выполенения задания студентом, но отправлять задание можно не более двух раз. После второй отправки задание будет оценено окончательно. | ||
+ | |||
+ | Поскольку anytask не позволяет выставлять дробные значения, то в самой системе anytask все максимальные баллы умножены на 10. На столько же нужно умножить и баллы просрочки (т.е. за каждый день просрочки в anytask будет сниматься 0.5 балла). | ||
+ | |||
{| class="wikitable" | {| class="wikitable" | ||
Строка 117: | Строка 188: | ||
|- | |- | ||
| 1 | | 1 | ||
- | | 17.02.2017 | + | | 17.02.2017 |
- | | | + | | '''03.03.2017 23:00''' |
- | | Исследование свойств стат. критериев на модельных данных | + | | [https://yadi.sk/d/RhXbyisY3EDRs4 Исследование свойств стат. критериев на модельных данных] |
- | | | + | | 1 |
|- | |- | ||
| 2 | | 2 | ||
| 03.03.2017 | | 03.03.2017 | ||
- | | | + | | '''17.03.2017 23:00''' |
- | | Проверка | + | | [https://yadi.sk/i/Q3syOkBg3ExSv2 Проверка статгипотез] |
- | | | + | |1.5 |
|- | |- | ||
| 3 | | 3 | ||
| 17.03.2017 | | 17.03.2017 | ||
- | | | + | | '''31.03.2017 23:00''' |
- | | Линейная и обобщенная линейная регрессия | + | | [https://yadi.sk/i/CU0dDP8n3GB5Rk Линейная и обобщенная линейная регрессия] |
- | | | + | | 2 |
|- | |- | ||
| 4 | | 4 | ||
- | | | + | | 01.04.2017 |
- | | | + | |'''15.04.2017 23:00''' |
- | | Прогнозирование временных рядов | + | | [https://yadi.sk/i/SRqYz9a23GZBYR Прогнозирование временных рядов] |
- | | | + | | 1.5 |
|} | |} | ||
- | == Литература == | + | == Литература == |
- | ===1. Основная литература=== | + | |
- | # Вальд, А. Последовательный анализ. | + | === 1. Основная литература === |
- | # Кобзарь, А. | + | # Вальд, А. Последовательный анализ. — М.: Физматлит, 1960. |
- | # Лагутин, М. | + | # Кобзарь, А. И. Прикладная математическая статистика. — М.: Физматлит, 2006. |
- | # Agresti, A. Categorical Data Analysis. | + | # Лагутин, М. Б. Наглядная математическая статистика. — М.: П-центр, 2003. |
- | # Bilder, C.R., Loughin, T.M. Analysis of Categorical Data with R. | + | # Agresti, A. Categorical Data Analysis. — Hoboken: John Wiley & Sons, 2013. |
- | # Bonnini, S., Corain, L., Marozzi, M., Salmaso S. Nonparametric Hypothesis Testing: Rank and Permutation Methods with Applications in R. | + | # Bilder, C.R., Loughin, T.M. Analysis of Categorical Data with R. — Boca Raton: Chapman and Hall/CRC, 2013. |
- | # Bretz, F., Hothorn, T., Westfall, P. Multiple Comparisons Using R. | + | # Bonnini, S., Corain, L., Marozzi, M., Salmaso S. Nonparametric Hypothesis Testing: Rank and Permutation Methods with Applications in R. — Hoboken: John Wiley & Sons, 2014. |
- | # Chihara, L., Hesterberg, T. Mathematical Statistics with Resampling and | + | # Bretz, F., Hothorn, T., Westfall, P. Multiple Comparisons Using R. — Boca Raton: Chapman and Hall/CRC, 2010. |
- | # Diez, D.M, Barr, C.D., Cetinkaya-Rundel, M., Dorazio, L. Advanced High School Statistics. | + | # Chihara, L., Hesterberg, T. Mathematical Statistics with Resampling and R — Hoboken: John Wiley & Sons, 2011. |
- | # Hyndman, R.J., Athanasopoulos G. Forecasting: principles and practice. | + | # Diez, D.M, Barr, C.D., Cetinkaya-Rundel, M., Dorazio, L. Advanced High School Statistics. — OpenIntro, 2015. |
- | # Kanji, G.K. 100 statistical tests. | + | # Hyndman, R.J., Athanasopoulos G. Forecasting: principles and practice. — OTexts, 2016. https://www.otexts.org/book/fpp |
- | # Mukhopadhyay, N., de Silva, B. M. Sequential methods and their applications. | + | # Kanji, G.K. 100 statistical tests. — London: SAGE Publications, 2006. |
- | # Olsson, U. Generalized Linear Models: An Applied Approach. | + | # Mukhopadhyay, N., de Silva, B. M. Sequential methods and their applications. — Boca Raton: Chapman and Hall/CRC, 2009. |
- | # Pearl J., Glymour M., Jewell N.P. Causal Inference in Statistics: A Primer. | + | # Olsson, U. Generalized Linear Models: An Applied Approach. — Lund: Studentlitteratur, 2004. |
- | # Tabachnick, B.G., Fidell, L.S. Using Multivariate Statistics. | + | # Pearl J., Glymour M., Jewell N.P. Causal Inference in Statistics: A Primer. — Chichester: John Wiley & Sons, 2016. |
- | # Wooldridge, J. Introductory Econometrics: A Modern Approach. | + | # Tabachnick, B.G., Fidell, L.S. Using Multivariate Statistics. — Boston: Pearson Education, 2012. |
+ | # Wooldridge, J. Introductory Econometrics: A Modern Approach. — Mason: South-Western Cengage Learning, 2013. | ||
+ | |||
=== 2. Дополнительная литература === | === 2. Дополнительная литература === | ||
- | # Cameron, A.A., Trivedi, P.K. Regression Analysis of Count Data. | + | # Cameron, A.A., Trivedi, P.K. Regression Analysis of Count Data. — Cambridge: Cambridge University Press, 2013. |
- | # Dickhaus, T. Simultaneous Statistical Inference With Applications in the Life Sciences. | + | # Dickhaus, T. Simultaneous Statistical Inference With Applications in the Life Sciences. — Heidelberg: Springer, 2014. |
- | # Good, P. Permutation, Parametric and Bootstrap Tests of Hypotheses: A Practical Guide to Resampling Methods for Testing Hypotheses. | + | # Good, P. Permutation, Parametric and Bootstrap Tests of Hypotheses: A Practical Guide to Resampling Methods for Testing Hypotheses. — New York: Springer, 2005. |
- | # Hosmer, D.W., Lemeshow S., Sturdivant, R.X. Applied Logistic Regression. | + | # Hosmer, D.W., Lemeshow S., Sturdivant, R.X. Applied Logistic Regression. — Hoboken: John Wiley & Sons, 2013. |
- | # Kirchgassner, G., Wolters, J., Hassler, U. Introduction to modern time series analysis. | + | # Kirchgassner, G., Wolters, J., Hassler, U. Introduction to modern time series analysis. — Heidelberg: Springer, 2013. |
- | # Nagarajan, R., Scutari, M., Lèbre, S. Bayesian Networks in R with Applications in Systems Biology. | + | # Nagarajan, R., Scutari, M., Lèbre, S. Bayesian Networks in R with Applications in Systems Biology. — New York: Springer, 2013. |
Текущая версия
Лекторы: К. Воронцов, М. Хальман, Ш. Ишкина, А. Романенко, П. Швечиков.
Содержание |
Экзамен
Обратите внимание на перенос времени начала экзамена!
Экзамен по данному курсу назначен на 28 апреля, 10:30 и будет проходить в 704 аудитории.
Опаздывать на экзамен в пределах 15 минут полезно, ибо проверяющих сильно меньше чем студентов, поэтому равномерное распределение студентов по времени в промежутке от 10:30 до 10:45 даже приветствуется.
Пожалуйста, не опаздывайте на экзамен более чем на час! Такие опоздавшие без уважительной причины с большой долей вероятности допущены к экзамену не будут.
Структура экзамена содержит в себе два блока:
1. Теоретический вопрос (2 балла) и практическая задача (2 балла)
2. Два дополнительных вопроса по всему курсу (2 x 3 балла)
При подготовке ответа на первый блок можно пользоваться любыми материалами (в том числе и слайдами / лекциями). Время на подготовку к ответу не должно превышать 1.5 часа. При ответе на первый блок можно пользоваться только своими записями. "Практичность" задачи будет заключаться в том, что Вам будет выдана туманная постановка задачи из реальной жизни и будет проверяться ваше умение формализовать неясную постановку "заказчика", а также умение сравнить методы, которые Вы считаете приемлемыми для решения формализованной задачи. В качестве подготовки к практической части экзамена полезно просмотреть домашние задачи ваших коллег, т.к. каждому студенту в течение курса выдавались уникальные задания.
Второй блок начинается сразу после того, как студент закончил ответ на первый блок. При ответе на вопросы второго блока ничем пользоваться нельзя. Второй блок будет содержать общие вопросы на понимание предмета курса и могут включать важные детали курса. Суммарная полученная оценка (максимум 10 баллов) делится пополам и используется в общей итоговой формуле оценки за курс по правилу, указанному ниже на этой странице.
Заранее выложенных билетов не будет. Общий охват материала обоими блоками будет стремиться к полному курсу, поэтому готовиться имеет смысл по всем материалам курса. В качестве подготовки к экзамену убедитесь, что вы
1. понимаете интуицию методов, которые были на лекции
2. можете предложить альтернативы решения почти к каждому методу, который вам рассказывался
3. составили общую картину курса в голове, определив, какие методы нужны для каких задач
Удачи на экзамене!
Расписание занятий
Занятия начинаются в 10:30, если отдельно не указано иное.
Дата | Тема | Аудитория (лекция/семинар) | Лекция | Семинар | |
---|---|---|---|---|---|
10.02.2017 | Базовые распределения, статистики и их свойства; Оценка параметров | 607 | Слайды | ||
13.02.2017 | Проверка параметрических гипотез | 526б | Слайды | Задания на семинар Решения | |
17.02.2017 | Проверка непараметрических гипотез | 704 | Слайды | Задания на семинар, Статья про boostrap, Решения | |
20.02.2017 | Множественная проверка гипотез | 523/526б | Слайды | Задания на семинар, Решения | |
27.02.2017 | Анализ зависимостей | 704 | Слайды | Задания на семинар, Решения | |
03.03.2017 | Дисперсионный анализ | 704 | Слайды | Задания на семинар, Решения | |
10.03.2017 | Линейная регрессия | 704 | Слайды | Задания на семинар, Решения | |
17.03.2017 | Дополнения и обобщения регрессии | 704 | Слайды | Задания на семинар, Решения | |
24.03.2017 | Прогнозирование временных рядов, часть 1 | 704 | Слайды | Задания на семинар, Решения | |
31.03.2017 | Прогнозирование временных рядов, часть 2 | 704 | Слайды | Задания на семинар, Решения | |
07.04.2017 | Причинно-следственные связи | 704 | Слайды | Задания на семинар, Решения, Видео про CausalImpact |
Система выставления оценок по курсу
По курсу запланировано 4 практических задания и экзамен. Оценки за выполнение практических заданий суммируются.
Итоговая оценка за курс является минимум между суммарной оценкой за практические задания и оценкой за экзамен.
Округление итоговой оценки производится по правилу арифметического округления (4.5 => 5).
Разбалловку по заданиям смотри в разделе Практические задания .
Практическая работа
Основные ссылки
- Для работы на семинарах вам понадобятся ноутбуки с установленными на них R и RStudio.
- Инструкция по установке и запуску swirl
- Некоторые основные опции Rmarkdown
- Advanced R — для тех, кто хочет разобраться в том, как работает R изнутри
Минимальная практика
Для того, чтобы успешно выполнять практические задания и работать на семинаре, вам необходимо приобрести минимальные навыки работы в R. Для этого скачайте R, RStudio, и установите swirl (ссылки приведены выше).
До семинара, убедитесь, пожалуйста, что вы прошли из блока «R Programming: The basics of programming in R» пакета swirl (инструкция по установке и запуску swirl) следующие уроки:
- 1: Basic Building Blocks
- 4: Vectors
- 7: Matrices and Data Frames
- 10: lapply and sapply
- 13: Simulation
- 15: Base Graphics
В противном случае на семинаре вы не сможете полноценно влиться в работу и получите дополнительные сложности при выполнении практических заданий.
Практические задания
Дедлайн по заданию мягкий, за каждый день просрочки снимается 0.05 баллов.
Просрочка считается исходя из чистого времени, которое студент выполняет задание (при подсчете просрочки не учитывается время, которое задание находилось на проверке). Проверяющий может вернуть работу (с разъяснящими комментариями) на доработку (без потери баллов) не более одного раза.
В случае доработки задания проверяющий выставляет оценку исходя из выполнения условий задачи и требованных доработок.
Обратите внимание на то, что время, которое задание ожидает своей проверки в anytask, не включается во время выполенения задания студентом, но отправлять задание можно не более двух раз. После второй отправки задание будет оценено окончательно.
Поскольку anytask не позволяет выставлять дробные значения, то в самой системе anytask все максимальные баллы умножены на 10. На столько же нужно умножить и баллы просрочки (т.е. за каждый день просрочки в anytask будет сниматься 0.5 балла).
Номер задания | Дата выдачи | Дедлайн | Название работы | Максимальный балл |
---|---|---|---|---|
1 | 17.02.2017 | 03.03.2017 23:00 | Исследование свойств стат. критериев на модельных данных | 1 |
2 | 03.03.2017 | 17.03.2017 23:00 | Проверка статгипотез | 1.5 |
3 | 17.03.2017 | 31.03.2017 23:00 | Линейная и обобщенная линейная регрессия | 2 |
4 | 01.04.2017 | 15.04.2017 23:00 | Прогнозирование временных рядов | 1.5 |
Литература
1. Основная литература
- Вальд, А. Последовательный анализ. — М.: Физматлит, 1960.
- Кобзарь, А. И. Прикладная математическая статистика. — М.: Физматлит, 2006.
- Лагутин, М. Б. Наглядная математическая статистика. — М.: П-центр, 2003.
- Agresti, A. Categorical Data Analysis. — Hoboken: John Wiley & Sons, 2013.
- Bilder, C.R., Loughin, T.M. Analysis of Categorical Data with R. — Boca Raton: Chapman and Hall/CRC, 2013.
- Bonnini, S., Corain, L., Marozzi, M., Salmaso S. Nonparametric Hypothesis Testing: Rank and Permutation Methods with Applications in R. — Hoboken: John Wiley & Sons, 2014.
- Bretz, F., Hothorn, T., Westfall, P. Multiple Comparisons Using R. — Boca Raton: Chapman and Hall/CRC, 2010.
- Chihara, L., Hesterberg, T. Mathematical Statistics with Resampling and R — Hoboken: John Wiley & Sons, 2011.
- Diez, D.M, Barr, C.D., Cetinkaya-Rundel, M., Dorazio, L. Advanced High School Statistics. — OpenIntro, 2015.
- Hyndman, R.J., Athanasopoulos G. Forecasting: principles and practice. — OTexts, 2016. https://www.otexts.org/book/fpp
- Kanji, G.K. 100 statistical tests. — London: SAGE Publications, 2006.
- Mukhopadhyay, N., de Silva, B. M. Sequential methods and their applications. — Boca Raton: Chapman and Hall/CRC, 2009.
- Olsson, U. Generalized Linear Models: An Applied Approach. — Lund: Studentlitteratur, 2004.
- Pearl J., Glymour M., Jewell N.P. Causal Inference in Statistics: A Primer. — Chichester: John Wiley & Sons, 2016.
- Tabachnick, B.G., Fidell, L.S. Using Multivariate Statistics. — Boston: Pearson Education, 2012.
- Wooldridge, J. Introductory Econometrics: A Modern Approach. — Mason: South-Western Cengage Learning, 2013.
2. Дополнительная литература
- Cameron, A.A., Trivedi, P.K. Regression Analysis of Count Data. — Cambridge: Cambridge University Press, 2013.
- Dickhaus, T. Simultaneous Statistical Inference With Applications in the Life Sciences. — Heidelberg: Springer, 2014.
- Good, P. Permutation, Parametric and Bootstrap Tests of Hypotheses: A Practical Guide to Resampling Methods for Testing Hypotheses. — New York: Springer, 2005.
- Hosmer, D.W., Lemeshow S., Sturdivant, R.X. Applied Logistic Regression. — Hoboken: John Wiley & Sons, 2013.
- Kirchgassner, G., Wolters, J., Hassler, U. Introduction to modern time series analysis. — Heidelberg: Springer, 2013.
- Nagarajan, R., Scutari, M., Lèbre, S. Bayesian Networks in R with Applications in Systems Biology. — New York: Springer, 2013.