Статистический анализ данных (курс лекций, К.В.Воронцов)

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
м (Литература)
м
 
(12 промежуточных версий не показаны.)
Строка 12: Строка 12:
* сравнение с другими методами.
* сравнение с другими методами.
-
Курс читается студентам 5&nbsp;курса кафедры [[Математические методы прогнозирования (кафедра ВМиК МГУ)|математических методов прогнозирования ВМиК МГУ]] с 2007 года и студентам 4&nbsp;курса [[Факультет управления и прикладной математики МФТИ|факультета управления и прикладной математики МФТИ]] с 2011 года. Предполагается, что студенты уже прослушали курсы теории вероятностей и математической статистики<!---, знакомы с элементами дискриминантного, факторного и кластерного анализа (по кафедральному курсу [[Машинное обучение (курс лекций, К.В.Воронцов)|«Математические методы распознавания образов»]]), регрессионного анализа и анализа временных рядов (по кафедральному курсу ММП)--->.
+
Курс читается студентам 4&nbsp;курса кафедры [[Математические методы прогнозирования (кафедра ВМиК МГУ)|математических методов прогнозирования ВМиК МГУ]] с 2007 года и студентам 4&nbsp;курса [[Факультет управления и прикладной математики МФТИ|факультета управления и прикладной математики МФТИ]] с 2011 года. Предполагается, что студенты уже прослушали курсы теории вероятностей и математической статистики<!---, знакомы с элементами дискриминантного, факторного и кластерного анализа (по кафедральному курсу [[Машинное обучение (курс лекций, К.В.Воронцов)|«Математические методы распознавания образов»]]), регрессионного анализа и анализа временных рядов (по кафедральному курсу ММП)--->.
== Программа курса ==
== Программа курса ==
Строка 46: Строка 46:
* Перестановочные критерии. Проверка гипотез о положении (одновыборочный, для связанных выборок, для независимых выборок), проверка гипотезы о рассеивании.
* Перестановочные критерии. Проверка гипотез о положении (одновыборочный, для связанных выборок, для независимых выборок), проверка гипотезы о рассеивании.
* Двухвыборочные критерии согласия: Колмогорова-Смирнова, Крамера-фон Мизеса (Андерсона).
* Двухвыборочные критерии согласия: Колмогорова-Смирнова, Крамера-фон Мизеса (Андерсона).
 +
<!---
* [[Функция сдвига]] и доверительная лента для неё.
* [[Функция сдвига]] и доверительная лента для неё.
-
<!---* Элементы [[теория измерений|теории измерений]]: номинальные, порядковые и количественные переменные; инварианты. Разновидности [[Обобщённое среднее|средних]]: по Коши, по Колмогорову, мода, медиана. Среднее в порядковой шкале [Орлов, гл. 3]. Пример: маркетинговое исследование привлекательности продуктов (образовательных услуг); важность постановки вопросов при формировании анкет [Орлов, 229].
+
* Элементы [[теория измерений|теории измерений]]: номинальные, порядковые и количественные переменные; инварианты. Разновидности [[Обобщённое среднее|средних]]: по Коши, по Колмогорову, мода, медиана. Среднее в порядковой шкале [Орлов, гл. 3]. Пример: маркетинговое исследование привлекательности продуктов (образовательных услуг); важность постановки вопросов при формировании анкет [Орлов, 229].
* Доверительные интервалы для медианы (Уилкоксона-Мозеса) и сдвига (Уилкоксона-Тьюки).
* Доверительные интервалы для медианы (Уилкоксона-Мозеса) и сдвига (Уилкоксона-Тьюки).
* Множественные сравнения на основе рангов Фридмана.
* Множественные сравнения на основе рангов Фридмана.
Строка 149: Строка 150:
* Меры качества прогнозов, примеры оценок. Информационные критерии. [[U-коэффициент Тейла]].
* Меры качества прогнозов, примеры оценок. Информационные критерии. [[U-коэффициент Тейла]].
* Сравнение качества двух прогнозов. Непараметрические критерии, [[критерий Диболда-Мариано]], его модификация для маленьких выборок.
* Сравнение качества двух прогнозов. Непараметрические критерии, [[критерий Диболда-Мариано]], его модификация для маленьких выборок.
-
* Сравнение качества нескольких прогнозов. [[Reality check Уайта]], модификация Романо-Вольфа.
+
<!--* Сравнение качества нескольких прогнозов. [[Reality check Уайта]], модификация Романо-Вольфа.-->
* Обнаружение структурных изменений. [[Критерий Чоу]].
* Обнаружение структурных изменений. [[Критерий Чоу]].
* [[Причинность по Грейнджеру]]. [[Критерий Грейнджера]] (для двух рядов, для множества рядов).
* [[Причинность по Грейнджеру]]. [[Критерий Грейнджера]] (для двух рядов, для множества рядов).
Строка 167: Строка 168:
[[Media:Psad_seq.pdf‎‎|Материалы занятия]]
[[Media:Psad_seq.pdf‎‎|Материалы занятия]]
 +
=== Анализ причинно-следственных связей ===
 +
[Pearl]
 +
* Неразрешимость парадокса Симпсона в рамках классической статистики.
 +
* Причинные графы, цепочки, вилки, коллайдеры. D-разделимость.
 +
* Интервенции. Оценка эффекта по обзервационным данным. Хирургия графа и формула корректировки (adjustment formula).
 +
* Правило причинного эффекта. Варианты для отсутствия родителей: правило задней двери, правило передней двери.
 +
* Propensity score, обратное вероятностное взвешивание.
 +
* Графы в линейных моделях. Связь со структурными уравнениями.
 +
 +
<!---
=== Анализ панельных данных ===
=== Анализ панельных данных ===
[Batalgi]
[Batalgi]
Строка 173: Строка 184:
* Модели с переменным свободным членом: одно- и двухкомпонентная ошибка. Фиксированные и случайные эффекты.
* Модели с переменным свободным членом: одно- и двухкомпонентная ошибка. Фиксированные и случайные эффекты.
* Модели с переменными угловыми коэффициентами. Полная статическая модель, проверка возможности её упрощения.
* Модели с переменными угловыми коэффициентами. Полная статическая модель, проверка возможности её упрощения.
-
<!---* [[Модель панельных данных с фиксированными эффектами]].
+
---><!--- * [[Модель панельных данных с фиксированными эффектами]].
* [[Модель панельных данных со случайными эффектами]].
* [[Модель панельных данных со случайными эффектами]].
* [[Модель панельных данных с временны́ми эффектами]].
* [[Модель панельных данных с временны́ми эффектами]].
* [[Модель несвязанных регрессий]].
* [[Модель несвязанных регрессий]].
* Проблема выбора модели: F-тест Фишера, [[критерий множителей Лагранжа]], [[критерий Хаусмана]].
* Проблема выбора модели: F-тест Фишера, [[критерий множителей Лагранжа]], [[критерий Хаусмана]].
-
* [[Ротационная панель]].--->
+
* [[Ротационная панель]].---><!---
[[Media:Psad_panel.pdf‎‎|Материалы занятия]]
[[Media:Psad_panel.pdf‎‎|Материалы занятия]]
Строка 186: Строка 197:
* Сравнение двух функций выживаемости: [[логранговый критерий]], [[критерий Гехана]].
* Сравнение двух функций выживаемости: [[логранговый критерий]], [[критерий Гехана]].
-
<!---
 
=== Выборочный анализ ===
=== Выборочный анализ ===
* Задачи [[Выборочный анализ|выборочного анализа]]. [[Простой случайный выбор]]. Приложения в социологии, маркетинге [Лапач, 312, Орлов].
* Задачи [[Выборочный анализ|выборочного анализа]]. [[Простой случайный выбор]]. Приложения в социологии, маркетинге [Лапач, 312, Орлов].
Строка 215: Строка 225:
# ''Кобзарь, А.И.'' Прикладная математическая статистика. — М.: Физматлит, 2006.
# ''Кобзарь, А.И.'' Прикладная математическая статистика. — М.: Физматлит, 2006.
# ''Agresti, A.'' Categorical Data Analysis. — Hoboken: John Wiley & Sons, 2013.
# ''Agresti, A.'' Categorical Data Analysis. — Hoboken: John Wiley & Sons, 2013.
-
# ''Baltagi, B.H.'' Econometric analysis of panel data. — Chichester: John Wiley & Sons, 2005.
 
# ''Bonnini, S., Corain, L., Marozzi, M., Salmaso S.'' Nonparametric Hypothesis Testing: Rank and Permutation Methods with Applications in R. — Hoboken: John Wiley & Sons, 2014.
# ''Bonnini, S., Corain, L., Marozzi, M., Salmaso S.'' Nonparametric Hypothesis Testing: Rank and Permutation Methods with Applications in R. — Hoboken: John Wiley & Sons, 2014.
# ''Bretz, F., Hothorn, T., Westfall, P.'' Multiple Comparisons Using R. — Boca Raton: Chapman and Hall/CRC, 2010.
# ''Bretz, F., Hothorn, T., Westfall, P.'' Multiple Comparisons Using R. — Boca Raton: Chapman and Hall/CRC, 2010.
Строка 223: Строка 232:
# {{Публикация:Hastie 2001 The Elements of Statistical Learning}}
# {{Публикация:Hastie 2001 The Elements of Statistical Learning}}
# ''Hosmer, D.W., Lemeshow S., Sturdivant, R.X.'' Applied Logistic Regression. — Hoboken: John Wiley & Sons, 2013.
# ''Hosmer, D.W., Lemeshow S., Sturdivant, R.X.'' Applied Logistic Regression. — Hoboken: John Wiley & Sons, 2013.
-
# ''Hyndman, R.J., Athanasopoulos G.'' Forecasting: principles and practice. — OTexts, 2013. https://www.otexts.org/book/fpp
+
# ''Hyndman, R.J., Athanasopoulos G.'' Forecasting: principles and practice. — OTexts, 2015. https://www.otexts.org/book/fpp
# ''Kanji, G.K.'' 100 statistical tests. — London: SAGE Publications, 2006.
# ''Kanji, G.K.'' 100 statistical tests. — London: SAGE Publications, 2006.
# ''Mukhopadhyay, N., de Silva, B. M.'' Sequential methods and their applications. — Boca Raton: Chapman and Hall/CRC, 2009.
# ''Mukhopadhyay, N., de Silva, B. M.'' Sequential methods and their applications. — Boca Raton: Chapman and Hall/CRC, 2009.
# ''Olsson, U.'' Generalized Linear Models: An Applied Approach. — Lund: Studentlitteratur, 2004.
# ''Olsson, U.'' Generalized Linear Models: An Applied Approach. — Lund: Studentlitteratur, 2004.
 +
# ''Pearl J., Glymour M., Jewell N.P.'' Causal Inference in Statistics: A Primer. — Chichester: John Wiley & Sons, 2016.
# ''Tabachnick, B.G., Fidell, L.S.'' Using Multivariate Statistics. — Boston: Pearson Education, 2012.
# ''Tabachnick, B.G., Fidell, L.S.'' Using Multivariate Statistics. — Boston: Pearson Education, 2012.
-
# ''Wilcox, R.R.'' Introduction to Robust Estimation and Hypothesis Testing. — Academic Press, 2012.
 
# ''Wooldridge, J.'' Introductory Econometrics: A Modern Approach. — Mason: South-Western Cengage Learning, 2013.
# ''Wooldridge, J.'' Introductory Econometrics: A Modern Approach. — Mason: South-Western Cengage Learning, 2013.
<!---
<!---
 +
# ''Baltagi, B.H.'' Econometric analysis of panel data. — Chichester: John Wiley & Sons, 2005.
 +
# ''Wilcox, R.R.'' Introduction to Robust Estimation and Hypothesis Testing. — Academic Press, 2012.
# ''Лапач С.Н. , Чубенко А.В., Бабич П.Н.'' Статистика в науке и бизнесе. — Киев: Морион, 2002.
# ''Лапач С.Н. , Чубенко А.В., Бабич П.Н.'' Статистика в науке и бизнесе. — Киев: Морион, 2002.
# ''Лукашин, Ю.П.'' Адаптивные методы краткосрочного прогнозирования временных рядов. — М.: Финансы и статистика, 2003.
# ''Лукашин, Ю.П.'' Адаптивные методы краткосрочного прогнозирования временных рядов. — М.: Финансы и статистика, 2003.
Строка 247: Строка 258:
# ''Стрижов В. В.'' [http://strijov.com/papers/strijov06precise.pdf Уточнение экспертных оценок с помощью измеряемых данных]. // Заводская лаборатория. Диагностика материалов. 2006 (7). С.59-64.
# ''Стрижов В. В.'' [http://strijov.com/papers/strijov06precise.pdf Уточнение экспертных оценок с помощью измеряемых данных]. // Заводская лаборатория. Диагностика материалов. 2006 (7). С.59-64.
# ''Тюрин Ю. Н., Макаров А. А.'' Анализ данных на компьютере. — М.: Инфра-М, 2003.
# ''Тюрин Ю. Н., Макаров А. А.'' Анализ данных на компьютере. — М.: Инфра-М, 2003.
-
--->
 
== Подстраницы ==
== Подстраницы ==
-
* [[Статистический анализ данных (курс лекций, К.В.Воронцов)/2015|Практические задания для студентов каф. ММП ВМК (2015 год)]]
+
 
-
* [[Статистический анализ данных (курс лекций, К.В.Воронцов)/2015, ФУПМ|Практические задания для студентов ФУПМ МФТИ (2015 год)]]
+
--->
 +
 
[[Категория:Учебные курсы]]
[[Категория:Учебные курсы]]

Текущая версия

Содержание

Курс знакомит студентов с основными задачами и методами прикладной статистики.

Цели курса — связать теорию и практику, научить студентов «видеть» статистические задачи в различных предметных областях и правильно применять методы прикладной статистики, показать на практических примерах возможности и ограничения статистических методов. Курс имеет скорее методологическую, чем математическую направленность и не содержит доказательств теорем.

Каждый метод описывается по единой схеме:

  • постановка задачи;
  • примеры прикладных задач из области биологии, экономики, социологии, производства, медицины;
  • базовые предположения и границы применимости;
  • описание метода (для методов проверки статистических гипотез: нулевая гипотеза и альтернативы, статистика, её нулевое распределение);
  • достоинства, недостатки, ограничения, «подводные камни»;
  • сравнение с другими методами.

Курс читается студентам 4 курса кафедры математических методов прогнозирования ВМиК МГУ с 2007 года и студентам 4 курса факультета управления и прикладной математики МФТИ с 2011 года. Предполагается, что студенты уже прослушали курсы теории вероятностей и математической статистики.

Программа курса

Введение

Обзор необходимых сведений из теории вероятностей и математической статистики.

Материалы занятия

Параметрическая проверка гипотез

[Kanji, Кобзарь]

  • Критерии нормальности: критерий хи-квадрат (Пирсона), критерий Шапиро-Уилка, критерии, основанные на различиях между эмпирической и теоретической функциями распределения, критерий Колмогорова-Смирнова (Лиллиефорса). Упрощённая проверка нормальности по асимметрии и эксцессу: критерий Харке-Бера.
  • Нормальные параметрические критерии для проверки гипотез: гипотезы о положении, гипотезы о рассеивании.
  • Гипотезы о средних: t- и z-критерии Стьюдента для одной и двух выборок, связанные выборки
  • Гипотезы о дисперсиях: критерии хи-квадрат и Фишера.
  • Гипотезы о значениях параметра распределения Бернулли: сравнение значения параметра с заданным, сравнение параметров распределений двух выборок (случаи связанных и независимых выборок).
  • Доверительный интервал для параметра распределения Бернулли: Вальда, Уилсона. Доверительные интервалы Уилсона для разности параметров двух выборок.

Материалы занятия

Непараметрическая проверка гипотез

[Bonnini, Wilcox]

Материалы занятия

Множественная проверка гипотез

[Bretz, Dickhaus]

  • Множественная проверка гипотез. Примеры задач. Меры числа ошибок первого рода.
  • FWER, поправка Бонферрони.
  • Нисходящие процедуры множественной проверки: общий вид, метод Холма.
  • Процедуры множественной проверки гипотез при наличии дополнительной информации о признаках: независимость, subset pivotality, PRDS.
  • Оценка числа верных нулевых гипотез и её применение.
  • FDR, восходящие процедуры, методы Бенджамини-Хохберга и Бенджамини-Иекутиели.

Материалы занятия

Дисперсионный анализ (ANOVA)

[Tabachnick, Лагутин, Кобзарь]

Материалы занятия

Анализ зависимостей

[Agresti, Лагутин].

Материалы занятия

Линейный регрессионный анализ

[Wooldridge]

Материалы занятия

Обобщения линейной регрессии

[Olsson, Hosmer, Cameron]

  • Обобщённые линейные модели. Связующая функция. Оценка параметров методом максимального правдоподобия.
  • Доверительные интервалы и оценка значимости коэффициентов, критерии Вальда и отношения правдоподобия.
  • Меры качества обобщённых линейных моделей: аномальность, информационные критерии.
  • Постановка задачи логистической регрессии. Логит, интерпретация коэффициентов логистической регрессии.
  • Проверка линейности логита: сглаженные диаграммы рассеяния, дробные полиномы.
  • Классификация на основе логистической регрессии: чувствительность, специфичность, выбор порога.
  • Регрессия счётного признака. Пуассоновская модель.
  • Предположение о равенстве матожидания и дисперсии и его проверка. Отрицательная биномиальная модель. Устойчивая оценка дисперсии коэффициентов.

Материалы занятия

Анализ временных рядов

[Hyndman]

  • Временной ряд. Основные компоненты эконометрических временных рядов: тренд, сезонность. Календарные эффекты.
  • Анализ остатков. Автокорреляционная функция. Коррелограмма и её интерпретация. Проверка гипотезы о равенстве нулю автокорреляции и группы автокорреляций (критерий Льюнга-Бокса). Проверка гипотезы стационарности (критерий KPSS).
  • Модели AR, MA, ARMA. Частичная автокорреляция. Подбор параметров модели по коррелограммам. Переход к ряду разностей, модель ARIMA.
  • Сезонные эффекты и модели их учёта: SARMA, SARIMA.
  • Учёт дополнительных признаков, модель regARIMA. Схема настройки параметров модели.
  • Прогнозирование методами экспоненциального сглаживания. Простое экспоненциальное сглаживание Брауна, методы Хольта и Хольта-Уинтерса. Таксономия моделей ETS.
  • Меры качества прогнозов, примеры оценок. Информационные критерии. U-коэффициент Тейла.
  • Сравнение качества двух прогнозов. Непараметрические критерии, критерий Диболда-Мариано, его модификация для маленьких выборок.
  • Обнаружение структурных изменений. Критерий Чоу.
  • Причинность по Грейнджеру. Критерий Грейнджера (для двух рядов, для множества рядов).
  • Адаптивная селекция и композиция моделей прогнозирования. «Forecast combination puzzle». Агрегирующий алгоритм Вовка.
  • Прогнозирование иерархических совокупностей рядов.
  • Сложные сезонности в моделях экспоненциального сглаживания (TBATS) и авторегрессии.

Материалы занятий: часть 1, часть 2.

Последовательный анализ

[Вальд, Mukhopadhyay]

  • Применение в задачах проверки гипотез о значениях параметра биномиального распределения: сравнение значения с заданным, сравнение двух значений.
  • Применение в задачах проверки гипотез о значениях параметров нормального распределения: сравнение значения среднего с заданными (симметричный и несимметричный варианты), сравнение значения дисперсии с заданным.
  • Последовательные доверительные интервалы для среднего нормальной совокупности с неизвестной дисперсией (двухэтапная, последовательная процедуры). Процедуры для разности средних двух нормальных совокупностей, случаи равных и неравных дисперсий.
  • Непараметрические последовательные доверительные интервалы для среднего и медианы.

Материалы занятия

Анализ причинно-следственных связей

[Pearl]

  • Неразрешимость парадокса Симпсона в рамках классической статистики.
  • Причинные графы, цепочки, вилки, коллайдеры. D-разделимость.
  • Интервенции. Оценка эффекта по обзервационным данным. Хирургия графа и формула корректировки (adjustment formula).
  • Правило причинного эффекта. Варианты для отсутствия родителей: правило задней двери, правило передней двери.
  • Propensity score, обратное вероятностное взвешивание.
  • Графы в линейных моделях. Связь со структурными уравнениями.


Литература

  1. Вальд, А. Последовательный анализ. — М.: Физматлит, 1960.
  2. Лагутин, М.Б. Наглядная математическая статистика. В двух томах. — М.: П-центр, 2003.
  3. Кобзарь, А.И. Прикладная математическая статистика. — М.: Физматлит, 2006.
  4. Agresti, A. Categorical Data Analysis. — Hoboken: John Wiley & Sons, 2013.
  5. Bonnini, S., Corain, L., Marozzi, M., Salmaso S. Nonparametric Hypothesis Testing: Rank and Permutation Methods with Applications in R. — Hoboken: John Wiley & Sons, 2014.
  6. Bretz, F., Hothorn, T., Westfall, P. Multiple Comparisons Using R. — Boca Raton: Chapman and Hall/CRC, 2010.
  7. Cameron, A.A., Trivedi, P.K. Regression Analysis of Count Data. — Cambridge: Cambridge University Press, 2013.
  8. Dickhaus, T. Simultaneous Statistical Inference With Applications in the Life Sciences. — Heidelberg: Springer, 2014.
  9. Good, P. Permutation, Parametric and Bootstrap Tests of Hypotheses: A Practical Guide to Resampling Methods for Testing Hypotheses. — New York: Springer, 2005.
  10. Hastie, T., Tibshirani, R., Friedman, J. The Elements of Statistical Learning, 2nd edition. — Springer, 2009. — 533 p.  (подробнее)
  11. Hosmer, D.W., Lemeshow S., Sturdivant, R.X. Applied Logistic Regression. — Hoboken: John Wiley & Sons, 2013.
  12. Hyndman, R.J., Athanasopoulos G. Forecasting: principles and practice. — OTexts, 2015. https://www.otexts.org/book/fpp
  13. Kanji, G.K. 100 statistical tests. — London: SAGE Publications, 2006.
  14. Mukhopadhyay, N., de Silva, B. M. Sequential methods and their applications. — Boca Raton: Chapman and Hall/CRC, 2009.
  15. Olsson, U. Generalized Linear Models: An Applied Approach. — Lund: Studentlitteratur, 2004.
  16. Pearl J., Glymour M., Jewell N.P. Causal Inference in Statistics: A Primer. — Chichester: John Wiley & Sons, 2016.
  17. Tabachnick, B.G., Fidell, L.S. Using Multivariate Statistics. — Boston: Pearson Education, 2012.
  18. Wooldridge, J. Introductory Econometrics: A Modern Approach. — Mason: South-Western Cengage Learning, 2013.
Личные инструменты