Статистический анализ данных (курс лекций, К.В.Воронцов)

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
м (Анализ временных рядов)
м
 
(97 промежуточных версий не показаны.)
Строка 6: Строка 6:
Каждый метод описывается по единой схеме:
Каждый метод описывается по единой схеме:
* постановка задачи;
* постановка задачи;
-
* примеры прикладных задач из области экономики, социологии, производства, медицины;
+
* примеры прикладных задач из области биологии, экономики, социологии, производства, медицины;
* базовые предположения и границы применимости;
* базовые предположения и границы применимости;
-
* описание метода (для методов проверки статистических гипотез: нулевая гипотеза и альтернативы, статистика, её функция распределения с эскизом графика, критическая область);
+
* описание метода (для методов проверки статистических гипотез: нулевая гипотеза и альтернативы, статистика, её нулевое распределение);
* достоинства, недостатки, ограничения, «подводные камни»;
* достоинства, недостатки, ограничения, «подводные камни»;
* сравнение с другими методами.
* сравнение с другими методами.
-
Курс читается студентам 5 курса кафедры [[Математические методы прогнозирования (кафедра ВМиК МГУ)|Математические методы прогнозирования ВМиК МГУ]], начиная с 2007 года. Предполагается, что студенты уже прослушали курсы теории вероятностей и математической статистики, знакомы с элементами дискриминантного, факторного и кластерного анализа (по кафедральному курсу [[Машинное обучение (курс лекций, К.В.Воронцов)|«Математические методы распознавания образов»]]), регрессионного анализа и анализа временных рядов (по кафедральному курсу ММП).
+
Курс читается студентам 4&nbsp;курса кафедры [[Математические методы прогнозирования (кафедра ВМиК МГУ)|математических методов прогнозирования ВМиК МГУ]] с 2007 года и студентам 4&nbsp;курса [[Факультет управления и прикладной математики МФТИ|факультета управления и прикладной математики МФТИ]] с 2011 года. Предполагается, что студенты уже прослушали курсы теории вероятностей и математической статистики<!---, знакомы с элементами дискриминантного, факторного и кластерного анализа (по кафедральному курсу [[Машинное обучение (курс лекций, К.В.Воронцов)|«Математические методы распознавания образов»]]), регрессионного анализа и анализа временных рядов (по кафедральному курсу ММП)--->.
== Программа курса ==
== Программа курса ==
-
 
=== Введение ===
=== Введение ===
Обзор необходимых сведений из теории вероятностей и математической статистики.
Обзор необходимых сведений из теории вероятностей и математической статистики.
-
* Понятия [[Простая выборка|простой выборки]] и [[статистика (функция выборки)|статистики]]. Примеры статистик: [[момент]]ы, [[асимметрия]] и [[эксцесс]], [[вариационный ряд]] и [[порядковые статистики]], [[эмпирическое распределение]].
+
* Понятия [[Простая выборка|простой выборки]] и [[статистика (функция выборки)|статистики]]. Примеры статистик: [[момент]]ы, [[асимметрия]] и [[эксцесс]], [[вариационный ряд]] и порядковые статистики, [[эмпирическое распределение]].
-
* Свойства критериев: [[несмещённость]], [[состоятельность]], [[мощность критерия|равномерная мощность]].
+
* Статистические [[точечная оценка|точечные оценки]] и их свойства: [[несмещённость]], [[состоятельность]], [[оптимальность]], [[робастность]].
* Статистические [[точечная оценка|точечные оценки]] и их свойства: [[несмещённость]], [[состоятельность]], [[оптимальность]], [[робастность]].
-
* [[Интервальная оценка|Интервальные оценки]], понятия [[Доверительный интервал|доверительного интервала]] и [[Коэффициент доверия|коэффициента доверия]]. <!---Доверительное оценивание по вариационному ряду. Доверительные интервалы для среднего и медианы [Лапач, 104].--->
+
* [[Интервальная оценка|Интервальные оценки]], понятия [[Доверительный интервал|доверительного интервала]] и [[Коэффициент доверия|уровня доверия]]. Доверительные интервалы для среднего и медианы.
-
* Часто используемые распределения: нормальное, Фишера, Стьюдента, хи-квадрат, Бернулли, биномиальное, гипергеометрическое.
+
* Часто используемые распределения: нормальное, хи-квадрат, Фишера, Стьюдента, Бернулли, биномиальное, Пуассона.
-
* [[Проверка статистических гипотез]], основные понятия: [[уровень значимости]], [[пи-величина]] (p-value), критическая область, критическая функция, ошибки I и II рода. Односторонние и двусторонние критические области.
+
* [[Проверка статистических гипотез]], основные понятия: [[уровень значимости]], [[достигаемый уровень значимости]] (p-value), ошибки I и II рода. Односторонние и двусторонние альтернативы.
 +
* Свойства достигаемых уровней значимости. Статистическая и практическая значимость.
 +
* Свойства критериев: [[несмещённость]], [[состоятельность]], [[мощность критерия|мощность]].
-
[[Media:S1.pdf‎‎|Материалы занятия]]
+
[[Media:psad_intro.pdf‎‎|Материалы занятия]]
=== Параметрическая проверка гипотез ===
=== Параметрическая проверка гипотез ===
-
[Kanji]
+
[Kanji, Кобзарь]
-
* Критерии нормальности: [[критерий хи-квадрат]] (Пирсона), [[критерий Колмогорова-Смирнова]], [[Критерий Шапиро-Уилка]], [[критерий омега-квадрат]] Смирнова-Крамера-фон Мизеса. Упрощённые проверки нормальности по асимметрии и эксцессу. <!---Исторический пример: проверка закона Менделя А.Н.Колмогоровым [Тюрин, 306]. Эмпирические подтверждения ненормальности реальных измерений [Орлов, стр. 71–77]. --->
+
* Критерии нормальности: [[критерий хи-квадрат]] (Пирсона), [[критерий Шапиро-Уилка]], критерии, основанные на различиях между эмпирической и теоретической функциями распределения, [[критерий Колмогорова-Смирнова]] (Лиллиефорса). Упрощённая проверка нормальности по асимметрии и эксцессу: критерий Харке-Бера. <!---Исторический пример: проверка закона Менделя А.Н.Колмогоровым [Тюрин, 306]. Эмпирические подтверждения ненормальности реальных измерений [Орлов, стр. 71–77]. --->
-
* [[Нормальные параметрические критерии]] для проверки гипотез: [[гипотезы о положении]], [[гипотезы о рассеивании]] [Лапач, §3.2]. Примеры прикладных задач<!--- из областей медицины, агрономии, маркетинга--->.
+
* [[Нормальные параметрические критерии]] для проверки гипотез: [[гипотезы о положении]], [[гипотезы о рассеивании]].
-
* Систематизация критериев.
+
* Гипотезы о средних: t- и z-критерии [[критерий Стьдента|Стьюдента]] для одной и двух выборок, связанные выборки<!---, [[гипотеза сдвига]], [[метод множественных сравнений Шеффе]], [[метод LSD]]. Пример: задача формирования ценовых коридоров. --->
-
* Гипотеза о равенстве средних: [[критерий Стьюдента]] для одной и двух выборок, [[Z-критерий]] для одной и двух выборок, связанные выборки<!---, [[гипотеза сдвига]], [[метод множественных сравнений Шеффе]], [[метод LSD]]. Пример: задача формирования ценовых коридоров. --->
+
* Гипотезы о дисперсиях: критерии хи-квадрат и [[критерий Фишера|Фишера]]<!---, [[критерий Кокрена]], [[критерий Бартлета]]--->.
-
* Гипотеза о равенстве дисперсий: [[критерий Фишера]]<!---, [[критерий Кокрена]], [[критерий Бартлета]]--->.
+
* Гипотезы о значениях параметра распределения Бернулли: сравнение значения параметра с заданным, сравнение параметров распределений двух выборок (случаи связанных и независимых выборок).
-
* Гипотезы о значениях параметра биномиального распределения: сравнение значения параметра с заданным, сравнение параметров распределений двух выборок.
+
* Доверительный интервал для параметра распределения Бернулли: Вальда, Уилсона. Доверительные интервалы Уилсона для разности параметров двух выборок.
-
* Доверительный интервал для параметра биномиального распределения: Вальда, Уилсона.
+
-
[[Media:S2.pdf‎‎|Материалы занятия]]
+
[[Media:psad_ht_parametric.pdf|Материалы занятия]]
=== Непараметрическая проверка гипотез ===
=== Непараметрическая проверка гипотез ===
-
[Kanji, Good]
+
[Bonnini, Wilcox]
-
* Непараметрические ранговые критерии для проверки гипотез: [[Критерий Уилкоксона-Манна-Уитни]], [[гипотезы о положении]], [[гипотезы о рассеивании]].
+
* [[Критерии знаков]]: одновыборочный, для связанных выборок.
-
<!---* Элементы [[теория измерений|теории измерений]]: номинальные, порядковые и количественные переменные; инварианты. Разновидности [[Обобщённое среднее|средних]]: по Коши, по Колмогорову, мода, медиана. Среднее в порядковой шкале [Орлов, гл. 3]. Пример: маркетинговое исследование привлекательности продуктов (образовательных услуг); важность постановки вопросов при формировании анкет [Орлов, 229]. --->
+
-
* [[Критерии знаков]]: одновыборочный, для связных выборок.
+
* [[Вариационный ряд]], ранги и связки.
* [[Вариационный ряд]], ранги и связки.
-
* [[Ранговые критерии]]: [[критерий Уилкоксона-Манна-Уитни]], [[критерий Уилкоксона двухвыборочный]], [[критерий Уилкоксона для связных выборок]], [[критерий Зигеля-Тьюки]], [[WM-критерий]].
+
* [[Ранговые критерии]]: [[критерий Уилкоксона-Манна-Уитни]], [[критерий Уилкоксона двухвыборочный]], [[критерий Уилкоксона для связанных выборок]], [[критерий Зигеля-Тьюки]].
-
* Перестановочные критерии. Проверка гипотез о положении (одновыборочный, для связных выборок, для независимых выборок), проверка гипотезы о рассеивании.
+
* Перестановочные критерии. Проверка гипотез о положении (одновыборочный, для связанных выборок, для независимых выборок), проверка гипотезы о рассеивании.
-
<!---* Доверительные интервалы для медианы (Уилкоксона-Мозеса) и сдвига (Уилкоксона-Тьюки).
+
* Двухвыборочные критерии согласия: Колмогорова-Смирнова, Крамера-фон Мизеса (Андерсона).
-
* Множественные сравнения на основе рангов Фридмана. --->
+
<!---
 +
* [[Функция сдвига]] и доверительная лента для неё.
 +
* Элементы [[теория измерений|теории измерений]]: номинальные, порядковые и количественные переменные; инварианты. Разновидности [[Обобщённое среднее|средних]]: по Коши, по Колмогорову, мода, медиана. Среднее в порядковой шкале [Орлов, гл. 3]. Пример: маркетинговое исследование привлекательности продуктов (образовательных услуг); важность постановки вопросов при формировании анкет [Орлов, 229].
 +
* Доверительные интервалы для медианы (Уилкоксона-Мозеса) и сдвига (Уилкоксона-Тьюки).
 +
* Множественные сравнения на основе рангов Фридмана.
 +
, [[WM-критерий]]--->
-
[[Media:S3.pdf‎‎|Материалы занятия]]
+
[[Media:psad_ht_nonparametric.pdf|Материалы занятия]]
-
 
+
-
=== Дисперсионный анализ (ANOVA) ===
+
-
[Лапач, 193].
+
-
<!---* Модели факторного эксперимента. Примеры: факторы, влияющие на успешность решения математических задач; факторы, влияющие на объёмы продаж. --->
+
-
* Однофакторная модель: критерии Фишера, [[критерий Краскела-Уоллиса|Краскела-Уоллиса]], [[критерий Джонкхиера|Джонкхиера]].
+
-
* Модель со случайным эффектом, разделение дисперсии.
+
-
* Модель с фиксированным эффектом, уточнение различий: методы LSD и HSD, критерий [[критерий Неменьи|Неменьи]].
+
-
* Проверка гипотезы о равенстве дисперсий: критерии [[критерий Бартлета|Бартлета]] и [[критерий квадратов рангов|квадратов рангов]].
+
-
<!---* Общий случай модели с постоянными факторами, теорема Кокрена. --->
+
-
* Двухфакторная модель. Взаимодействие факторов, его интерпретация. Иерархический дизайн.
+
-
* [[Двухфакторный нормальный анализ]].
+
-
* [[Двухфакторная непараметрическая модель]]: [[критерий Фридмана]], [[критерий Пейджа]]. <!---Примеры: сравнение эффективности методов производства, агротехнических приёмов. --->
+
-
<!--- * [[Ковариационный анализ]] (постановка задачи).--->
+
-
 
+
-
[[Media:S4.pdf‎‎|Материалы занятия]]
+
=== Множественная проверка гипотез ===
=== Множественная проверка гипотез ===
-
[Bretz]
+
[Bretz, Dickhaus]
* [[Множественная проверка гипотез]]. Примеры задач. Меры числа ошибок первого рода.
* [[Множественная проверка гипотез]]. Примеры задач. Меры числа ошибок первого рода.
* [[FWER]], поправка Бонферрони.
* [[FWER]], поправка Бонферрони.
* Нисходящие процедуры множественной проверки: общий вид, метод Холма.
* Нисходящие процедуры множественной проверки: общий вид, метод Холма.
-
* Процедуры множественной проверки гипотез при наличии дополнительной информации о признаках: независимость, subset pivotality.
+
* Процедуры множественной проверки гипотез при наличии дополнительной информации о признаках: независимость, subset pivotality, PRDS.
* Оценка числа верных нулевых гипотез и её применение.
* Оценка числа верных нулевых гипотез и её применение.
-
* [[FDR]], методы Бенджамини.
+
* [[FDR]], восходящие процедуры, методы Бенджамини-Хохберга и Бенджамини-Иекутиели.
 +
 
 +
[[Media:psad_mht.pdf‎‎|Материалы занятия]]
 +
 
 +
=== Дисперсионный анализ (ANOVA) ===
 +
[Tabachnick, Лагутин, Кобзарь]
 +
* Однофакторная модель. Независимые выборки: критерии Фишера, [[критерий Краскела-Уоллиса|Краскела-Уоллиса]], [[критерий Джонкхиера|Джонкхиера]]. Связанные выборки: критерии Фишера, [[критерий Фридмана|Фридмана]] и [[критерий Пейджа|Пейджа]]. Предположение сферичности.
 +
* Модель со случайным эффектом, разделение дисперсии.
 +
* Модель с фиксированным эффектом, уточнение различий: методы LSD и HSD, критерии [[критерий Неменьи|Неменьи]] и [[критерий Даннета|Даннета]].
 +
* Проверка гипотезы о равенстве дисперсий: критерии [[критерий Бартлета|Бартлета]] и [[критерий Флайнера-Киллиана|Флайнера-Киллиана]].
 +
<!---* Общий случай модели с постоянными факторами, теорема Кокрена. --->
 +
* Двухфакторная модель. Взаимодействие факторов, его интерпретация. [[Двухфакторный нормальный анализ]]. Иерархический дизайн.
 +
<!---* [[Ковариационный анализ]] (постановка задачи).--->
-
[[Media:S5.pdf‎‎|Материалы занятия]]
+
[[Media:Psad_anova.pdf‎‎|Материалы занятия]]
=== Анализ зависимостей ===
=== Анализ зависимостей ===
-
[Лапач, 174, 204, 316, Лагутин, Т2:174].
+
[Agresti, Лагутин].
* [[Коэффициент корреляции Пирсона|Корреляция Пирсона]]. Значимость коэффициента корреляции: критерий Стьюдента, перестановочный критерий.
* [[Коэффициент корреляции Пирсона|Корреляция Пирсона]]. Значимость коэффициента корреляции: критерий Стьюдента, перестановочный критерий.
* [[Ранговая корреляция]]: [[коэффициент корреляции Спирмена]], [[коэффициент корреляции Кенделла]], их значимость. Связь коэффициентов корреляции.
* [[Ранговая корреляция]]: [[коэффициент корреляции Спирмена]], [[коэффициент корреляции Кенделла]], их значимость. Связь коэффициентов корреляции.
* [[Частная корреляция]], значимость коэффициента частной корреляции (критерий Стьюдента).
* [[Частная корреляция]], значимость коэффициента частной корреляции (критерий Стьюдента).
* [[Множественная корреляция]], значимость коэффициента множественной корреляции (критерий Фишера).
* [[Множественная корреляция]], значимость коэффициента множественной корреляции (критерий Фишера).
-
* [[Таблица сопряженности]] 2×2. Проверка гипотезы независимости бинарных величин: критерий хи-квадрат, [[Точный тест Фишера|точный критерий Фишера]], [[критерий Мак-Нимара]]. Коэффициент корреляции Мэтьюса.
+
* Анализ канонических корреляций. Значимость коэффициентов. Вспомогательные статистики и их интерпретация.
 +
* [[Таблица сопряженности]] <tex>K_1\times K_2</tex>. Проверка гипотезы независимости категориальных величин с помощью критериев хи-квадрат и G-квадрат. Коэффициент V Крамера, коэффициент <tex>\gamma</tex> для порядковых величин.
 +
* [[Таблица сопряженности]] <tex>2\times 2</tex>. Проверка гипотезы независимости бинарных величин с помощью [[Точный тест Фишера|точного критерия Фишера]]. [[Корреляция Мэтьюса]].
* [[Парадокс хи-квадрат]].
* [[Парадокс хи-квадрат]].
-
<!---* [[Конкордация Кенделла]].
+
<!---* [[Конкордация Кенделла]]. --->
-
* [[Таблица сопряженности]] K×L. Проверка гипотезы независимости категориальных величин: критерий хи-квадрат, G-критерий. Коэффициент V Крамера.--->
+
-
[[Media:S6.pdf‎‎|Материалы занятия]]
+
[[Media:Psad_corr.pdf‎‎|Материалы занятия]]
=== Линейный регрессионный анализ ===
=== Линейный регрессионный анализ ===
-
[Дрейпер, Wooldridge]
+
[Wooldridge]
* [[Многомерная линейная регрессия]]. Примеры прикладных задач. [[Метод наименьших квадратов]].
* [[Многомерная линейная регрессия]]. Примеры прикладных задач. [[Метод наименьших квадратов]].
* <!---МНК-решение и его запись через [[сингулярное разложение]].---> Несимметричность решения задачи одномерной регрессии относительно признака и отклика, связь с коэффициентом корреляции. [[Остаточная сумма квадратов]] (RSS). [[Коэффициент детерминации]]
* <!---МНК-решение и его запись через [[сингулярное разложение]].---> Несимметричность решения задачи одномерной регрессии относительно признака и отклика, связь с коэффициентом корреляции. [[Остаточная сумма квадратов]] (RSS). [[Коэффициент детерминации]]
Строка 101: Строка 101:
* Статистические свойства МНК-оценок при добавлении предположения нормальности. Доверительные интервалы для дисперсии шума, коэффициентов регрессии, прогнозируемого значения отклика<!---, доверительная лента для прогнозируемого значения отклика при всех значениях признака--->.
* Статистические свойства МНК-оценок при добавлении предположения нормальности. Доверительные интервалы для дисперсии шума, коэффициентов регрессии, прогнозируемого значения отклика<!---, доверительная лента для прогнозируемого значения отклика при всех значениях признака--->.
* Анализ структуры линейной регрессионной модели. [[Значимость коэффициентов линейной регрессии]]: проверка равенства коэффициентов нулю и константе, [[вложенные модели линейной регрессии]], [[критерий Фишера]], запись критерия Фишера через коэффициент детерминации. Связь между критериями Фишера и Стьюдента. [[Пошаговая регрессия]]. Эксперимент Фридмана.
* Анализ структуры линейной регрессионной модели. [[Значимость коэффициентов линейной регрессии]]: проверка равенства коэффициентов нулю и константе, [[вложенные модели линейной регрессии]], [[критерий Фишера]], запись критерия Фишера через коэффициент детерминации. Связь между критериями Фишера и Стьюдента. [[Пошаговая регрессия]]. Эксперимент Фридмана.
-
* Сравнение невложенных моделей: приведённый коэффициент детерминации, критерий Давидсона-Маккиннона.
+
* Сравнение невложенных моделей: приведённый коэффициент детерминации, [[критерий Давидсона-Маккиннона]].
-
* [[Анализ регрессионных остатков]]: визуальный анализ, проверка гипотез несмещённости, гомоскедастичности (критерии Бройша-Пагана)<!--- или некоррелированности остатков с признаками, их квадратами и попарными интеракциями (критерии Уайта и Вулдриджа), некоррелированности (критерии [[критерий Вальда-Вольфовица|Вальда-Вольфовица]] и [[статистика Дарбина-Уотсона|Дарбина-Уотсона]])--->, нормальности.
+
* [[Анализ регрессионных остатков]]: визуальный анализ, проверка гипотез несмещённости, гомоскедастичности ([[критерий Бройша-Пагана]])<!--- или некоррелированности остатков с признаками, их квадратами и попарными интеракциями (критерии Уайта и Вулдриджа), некоррелированности (критерии [[критерий Вальда-Вольфовица|Вальда-Вольфовица]] и [[статистика Дарбина-Уотсона|Дарбина-Уотсона]])--->, нормальности.
-
* Обработка пропусков и выбросов. Расстояние Кука.
+
* Обработка выбросов, [[расстояние Кука]].
* Метод Бокса-Кокса для преобразования отклика. Доверительный интервал для параметра метода.
* Метод Бокса-Кокса для преобразования отклика. Доверительный интервал для параметра метода.
-
* Проверка общей линейной гипотезы.
+
* Устойчивая оценка дисперсии Уайта, её модификации.
-
* Нелинейная регрессия. Построение совместной доверительной области для параметров модели. Приближённая проверка адекватности модели по чистой ошибке.
+
<!---* Проверка общей линейной гипотезы. --->
-
* Проблема [[Мультиколлинеарность|мультиколлинеарности]]. Методы понижения размерности: [[ридж-регрессия]], [[лассо Тибширани]], [[эластичная сеть]]. Выбор параметра регуляризации.
+
-
Материалы занятий: [[Media:S7.pdf‎‎|часть 1]], [[Media:S8.pdf‎‎|часть 2]], [[Media:S9.pdf‎‎|часть 3]], [[Media:reg_example.pdf‎‎|пример решения задачи]].
+
[[Media:Psad_linreg.pdf|Материалы занятия]]<!---, [[Media:S8.pdf‎‎|часть 2]], [[Media:S9.pdf‎‎|часть 3]], [[Media:reg_example.pdf‎‎|пример решения задачи]].--->
-
=== Логистическая регрессия ===
+
=== Обобщения линейной регрессии ===
-
[Hosmer]
+
[Olsson, Hosmer, Cameron]
-
* Постановка задачи [[Логистическая_регрессия|логистической регрессии]], повторяемый эксперимент с фиксированными уровнями фактора, неповторяемый эксперимент со случайными уровнями фактора. Логит, его интерпретация. Интерпретация коэффициентов логистической регрессии (бинарный, количественный признак).
+
* Обобщённые линейные модели. Связующая функция. Оценка параметров методом максимального правдоподобия.
-
* Оценка параметров модели методом максимального правдоподобия. Возможные причины отсутствия сходимости.
+
* Доверительные интервалы и оценка значимости коэффициентов, критерии Вальда и отношения правдоподобия.
-
* Анализ модели логистической регрессии: оценка значимости коэффициентов (критерий Вальда),<!--- проверка адекватности модели (критерии хи-квадрат, D-квадрат, Хосмера-Лемешева, аналог коэффициента детерминации), сравнение вложенных моделей (D-критерий), --->построение доверительных интервалов, остатки Пирсона, проверка линейности логита по признаку, признаки мультиколлинеарности.
+
* Меры качества обобщённых линейных моделей: аномальность, информационные критерии.
 +
* Постановка задачи [[Логистическая_регрессия|логистической регрессии]]. Логит, интерпретация коэффициентов логистической регрессии.
 +
* Проверка линейности логита: сглаженные диаграммы рассеяния, дробные полиномы.
* Классификация на основе логистической регрессии: чувствительность, специфичность, выбор порога.
* Классификация на основе логистической регрессии: чувствительность, специфичность, выбор порога.
 +
* Регрессия счётного признака. Пуассоновская модель.
 +
* Предположение о равенстве матожидания и дисперсии и его проверка. Отрицательная биномиальная модель. Устойчивая оценка дисперсии коэффициентов.
-
[[Media:S10.pdf‎‎|Материалы занятия]]
+
[[Media:Psad_otherreg.pdf‎‎|Материалы занятия]]
<!---
<!---
 +
[Hastie]
 +
* Проблема [[Мультиколлинеарность|мультиколлинеарности]]. Методы понижения размерности: [[ридж-регрессия]], [[лассо Тибширани]], [[эластичная сеть]]. Выбор параметра регуляризации.
 +
=== Непараметрическая регрессия ===
=== Непараметрическая регрессия ===
* [[Непараметрическая регрессия]]: [[ядерное сглаживание]], формула Надарая-Ватсона. Разложение ошибки на [[Вариация и смещение|вариацию и смещение]]. Выбор ядра и ширины окна. Окна переменной ширины. Доверительный интервал прогнозного значения отклика. Проблема выбросов, [[Алгоритм LOWESS]].
* [[Непараметрическая регрессия]]: [[ядерное сглаживание]], формула Надарая-Ватсона. Разложение ошибки на [[Вариация и смещение|вариацию и смещение]]. Выбор ядра и ширины окна. Окна переменной ширины. Доверительный интервал прогнозного значения отклика. Проблема выбросов, [[Алгоритм LOWESS]].
Строка 125: Строка 131:
* Примеры прикладных задач: анализ стиля управления инвестиционным портфелем, анализ деятельности паевых инвестиционных фондов.
* Примеры прикладных задач: анализ стиля управления инвестиционным портфелем, анализ деятельности паевых инвестиционных фондов.
* Регуляризация коэффициентов регрессии, медленно изменяющихся во времени.
* Регуляризация коэффициентов регрессии, медленно изменяющихся во времени.
 +
 +
[Дрейпер]
 +
* Нелинейная регрессия. Построение совместной доверительной области для параметров модели. Приближённая проверка адекватности модели по чистой ошибке.
=== Анализ рисков. Пробит- и логит-анализ ===
=== Анализ рисков. Пробит- и логит-анализ ===
Строка 132: Строка 141:
=== Анализ временных рядов ===
=== Анализ временных рядов ===
-
[Shumway]
+
[Hyndman]
-
* [[Временной ряд]]. Основные компоненты эконометрических временных рядов: [[тренд]], [[сезонность]], календарные эффекты.
+
* [[Временной ряд]]. Основные компоненты эконометрических временных рядов: [[тренд]], [[сезонность]]. Календарные эффекты.
-
* Анализ остатков. [[Автокорреляционная функция]]. [[Коррелограмма]] и её интерпретация. Проверка гипотезы о равенстве нулю автокорреляции и группы автокорреляций (критерий Льюнга-Боксаъъ). Проверка гипотезы стационарности ([[критерий KPSS]]).
+
* Анализ остатков. [[Автокорреляционная функция]]. [[Коррелограмма]] и её интерпретация. Проверка гипотезы о равенстве нулю автокорреляции и группы автокорреляций ([[критерий Льюнга-Бокса]]). Проверка гипотезы стационарности ([[критерий KPSS]]).
* Модели AR, MA, ARMA. [[Частичная автокорреляция]]. Подбор параметров модели по коррелограммам. Переход к ряду разностей, модель ARIMA.
* Модели AR, MA, ARMA. [[Частичная автокорреляция]]. Подбор параметров модели по коррелограммам. Переход к ряду разностей, модель ARIMA.
-
* Информационные критерии сравнения моделей.
 
* Сезонные эффекты и модели их учёта: SARMA, SARIMA.
* Сезонные эффекты и модели их учёта: SARMA, SARIMA.
* Учёт дополнительных признаков, модель regARIMA. Схема настройки параметров модели.
* Учёт дополнительных признаков, модель regARIMA. Схема настройки параметров модели.
-
[[Media:S11.pdf‎‎|Материалы семинара по теме]]
+
* Прогнозирование методами экспоненциального сглаживания. Простое экспоненциальное сглаживание Брауна, методы Хольта и Хольта-Уинтерса. Таксономия моделей ETS.
-
 
+
* Меры качества прогнозов, примеры оценок. Информационные критерии. [[U-коэффициент Тейла]].
-
=== [[Адаптивные методы прогнозирования временных рядов|Адаптивные методы прогнозирования]] ===
+
* Сравнение качества двух прогнозов. Непараметрические критерии, [[критерий Диболда-Мариано]], его модификация для маленьких выборок.
-
[Лукашин]
+
<!--* Сравнение качества нескольких прогнозов. [[Reality check Уайта]], модификация Романо-Вольфа.-->
-
* [[Экспоненциальное сглаживание|Модель Брауна]] — экспоненциальное сглаживание.
+
-
* [[Модель Хольта]] — линейный тренд без сезонности.
+
-
* [[Модель Хольта-Уинтерса]] — мультипликативный тренд и сезонность.
+
-
* [[Модель Тейла-Вейджа]] — аддитивный тренд и сезонность.
+
-
* Анализ адекватности адаптивных моделей, [[следящий контрольный сигнал]].
+
-
* [[Адаптация параметров адаптации]]. [[Модель Тригга-Лича]].
+
* Обнаружение структурных изменений. [[Критерий Чоу]].
* Обнаружение структурных изменений. [[Критерий Чоу]].
-
* [[Адаптивная селекция моделей прогнозирования]].
+
* [[Причинность по Грейнджеру]]. [[Критерий Грейнджера]] (для двух рядов, для множества рядов).
-
* [[Адаптивная композиция моделей прогнозирования]].
+
* Адаптивная [[Адаптивная селекция моделей прогнозирования|селекция]] и [[Адаптивная композиция моделей прогнозирования|композиция]] моделей прогнозирования. «Forecast combination puzzle». Агрегирующий алгоритм Вовка.
 +
* Прогнозирование иерархических совокупностей рядов.
 +
* Сложные сезонности в моделях экспоненциального сглаживания (TBATS) и авторегрессии.
-
=== Последовательный анализ Вальда ===
+
Материалы занятий: [[Media:Psad_ts_arima.pdf‎‎‎|часть 1]], [[Media:Psad_ts_ets.pdf‎‎|часть 2]].
-
[Вальд]
+
 
 +
=== Последовательный анализ ===
 +
[Вальд, Mukhopadhyay]
* Применение в задачах проверки гипотез о значениях параметра биномиального распределения: сравнение значения с заданным, сравнение двух значений.
* Применение в задачах проверки гипотез о значениях параметра биномиального распределения: сравнение значения с заданным, сравнение двух значений.
* Применение в задачах проверки гипотез о значениях параметров нормального распределения: сравнение значения среднего с заданными (симметричный и несимметричный варианты), сравнение значения дисперсии с заданным.
* Применение в задачах проверки гипотез о значениях параметров нормального распределения: сравнение значения среднего с заданными (симметричный и несимметричный варианты), сравнение значения дисперсии с заданным.
 +
* Последовательные доверительные интервалы для среднего нормальной совокупности с неизвестной дисперсией (двухэтапная, последовательная процедуры). Процедуры для разности средних двух нормальных совокупностей, случаи равных и неравных дисперсий.
 +
* Непараметрические последовательные доверительные интервалы для среднего и медианы.
-
[[Media:Lec5.pdf‎‎|Конспект лекции]]
+
[[Media:Psad_seq.pdf‎‎|Материалы занятия]]
 +
 
 +
=== Анализ причинно-следственных связей ===
 +
[Pearl]
 +
* Неразрешимость парадокса Симпсона в рамках классической статистики.
 +
* Причинные графы, цепочки, вилки, коллайдеры. D-разделимость.
 +
* Интервенции. Оценка эффекта по обзервационным данным. Хирургия графа и формула корректировки (adjustment formula).
 +
* Правило причинного эффекта. Варианты для отсутствия родителей: правило задней двери, правило передней двери.
 +
* Propensity score, обратное вероятностное взвешивание.
 +
* Графы в линейных моделях. Связь со структурными уравнениями.
-
=== Анализ выживаемости ===
 
-
* [[Анализ выживаемости]]. [[Функция выживаемости]] и [[функция интенсивности рисков]]. [[Процедура Каплана-Мейера]]. Доверительный интервал выживаемости.
 
-
* Сравнение двух функций выживаемости: [[логранговый критерий]], [[критерий Гехана]].
 
<!---
<!---
=== Анализ панельных данных ===
=== Анализ панельных данных ===
-
[Магнус]
+
[Batalgi]
* Примеры эконометрических задач: анализ стран, фирм, домашних хозяйств, телезрителей.
* Примеры эконометрических задач: анализ стран, фирм, домашних хозяйств, телезрителей.
-
* [[Объединённая модель панельных данных]].
+
* Объединённая регрессионная модель панельных данных.
-
* [[Модель панельных данных с фиксированными эффектами]].
+
* Модели с переменным свободным членом: одно- и двухкомпонентная ошибка. Фиксированные и случайные эффекты.
 +
* Модели с переменными угловыми коэффициентами. Полная статическая модель, проверка возможности её упрощения.
 +
---><!--- * [[Модель панельных данных с фиксированными эффектами]].
* [[Модель панельных данных со случайными эффектами]].
* [[Модель панельных данных со случайными эффектами]].
* [[Модель панельных данных с временны́ми эффектами]].
* [[Модель панельных данных с временны́ми эффектами]].
* [[Модель несвязанных регрессий]].
* [[Модель несвязанных регрессий]].
* Проблема выбора модели: F-тест Фишера, [[критерий множителей Лагранжа]], [[критерий Хаусмана]].
* Проблема выбора модели: F-тест Фишера, [[критерий множителей Лагранжа]], [[критерий Хаусмана]].
-
* [[Ротационная панель]].
+
* [[Ротационная панель]].---><!---
 +
[[Media:Psad_panel.pdf‎‎|Материалы занятия]]
 +
 +
=== Анализ выживаемости ===
 +
* [[Анализ выживаемости]]. [[Функция выживаемости]] и [[функция интенсивности рисков]]. [[Процедура Каплана-Мейера]]. Доверительный интервал выживаемости.
 +
* Сравнение двух функций выживаемости: [[логранговый критерий]], [[критерий Гехана]].
=== Выборочный анализ ===
=== Выборочный анализ ===
Строка 180: Строка 201:
* [[Пропорциональный выбор]] и преимущества [[стратификация|стратификации]]. Оценки достаточной длины выборки [Лапач, 361]. Другие методы выбора: квотированный, кластерный, многоступенчатый кластерный.
* [[Пропорциональный выбор]] и преимущества [[стратификация|стратификации]]. Оценки достаточной длины выборки [Лапач, 361]. Другие методы выбора: квотированный, кластерный, многоступенчатый кластерный.
* [[Выборочный контроль качества]] [Лапач, 351]. Одноступенчатый и двухступенчатый [[план контроля]]. Оперативная характеристика плана контроля. Парадоксы выборочного контроля.
* [[Выборочный контроль качества]] [Лапач, 351]. Одноступенчатый и двухступенчатый [[план контроля]]. Оперативная характеристика плана контроля. Парадоксы выборочного контроля.
-
--->
+
 
-
<!---
+
* Метод доверительных интервалов Неймана.
* Метод доверительных интервалов Неймана.
* Понятия параметрических, непараметрических и робастных методов. Структура прикладной статистики.
* Понятия параметрических, непараметрических и робастных методов. Структура прикладной статистики.
Строка 198: Строка 218:
* [[Интегральный индикатор]]. Примеры прикладных задач. Линейные и ранговые шкалы. Методы построения интегрального индикатора «без учителя» [Strijov, 2003]. Устойчивые интегральные индикаторы [Стрижов, 2007].
* [[Интегральный индикатор]]. Примеры прикладных задач. Линейные и ранговые шкалы. Методы построения интегрального индикатора «без учителя» [Strijov, 2003]. Устойчивые интегральные индикаторы [Стрижов, 2007].
* [[Экспертные оценки]] [Литвак, Лапач, 353]. [[Матрица парных сравнений]]. [[Экспертно-статистический метод]] [Айвазян, том 2]. [[Согласование экспертных оценок]] [Стрижов, 2006].
* [[Экспертные оценки]] [Литвак, Лапач, 353]. [[Матрица парных сравнений]]. [[Экспертно-статистический метод]] [Айвазян, том 2]. [[Согласование экспертных оценок]] [Стрижов, 2006].
-
 
-
* [[ARIMA|Процесс авторегрессии и проинтегрированного скользящего среднего]] (ARIMA).
 
-
* Вычисление доверительных интервалов. [[Прогнозирование плотности]].
 
--->
--->
== Литература ==
== Литература ==
-
# ''Лапач С. Н. , Чубенко А. В., Бабич П. Н.'' Статистика в науке и бизнесе. — Киев: Морион, 2002.
+
# ''Вальд, А.'' Последовательный анализ. — М.: Физматлит, 1960.
-
# ''Лагутин М. Б.'' Наглядная математическая статистика. В двух томах. — М.: П-центр, 2003.
+
# ''Лагутин, М.Б.'' Наглядная математическая статистика. В двух томах. — М.: П-центр, 2003.
-
# ''Лукашин Ю. П.'' Адаптивные методы краткосрочного прогнозирования временных рядов. — М.: Финансы и статистика, 2003.
+
# ''Кобзарь, А.И.'' Прикладная математическая статистика. — М.: Физматлит, 2006.
-
# ''Магнус Я. Р., Катышев П. К., Пересецкий А. А.'' Эконометрика. Начальный курс: Учеб. — 7-е изд., испр. — М.: Дело, 2005.
+
# ''Agresti, A.'' Categorical Data Analysis. — Hoboken: John Wiley & Sons, 2013.
-
# ''Кобзарь А. И.'' Прикладная математическая статистика. — М.: Физматлит, 2006.
+
# ''Bonnini, S., Corain, L., Marozzi, M., Salmaso S.'' Nonparametric Hypothesis Testing: Rank and Permutation Methods with Applications in R. — Hoboken: John Wiley & Sons, 2014.
 +
# ''Bretz, F., Hothorn, T., Westfall, P.'' Multiple Comparisons Using R. — Boca Raton: Chapman and Hall/CRC, 2010.
 +
# ''Cameron, A.A., Trivedi, P.K.'' Regression Analysis of Count Data. — Cambridge: Cambridge University Press, 2013.
 +
# ''Dickhaus, T.'' Simultaneous Statistical Inference With Applications in the Life Sciences. — Heidelberg: Springer, 2014.
 +
# ''Good, P.'' Permutation, Parametric and Bootstrap Tests of Hypotheses: A Practical Guide to Resampling Methods for Testing Hypotheses. — New York: Springer, 2005.
 +
# {{Публикация:Hastie 2001 The Elements of Statistical Learning}}
 +
# ''Hosmer, D.W., Lemeshow S., Sturdivant, R.X.'' Applied Logistic Regression. — Hoboken: John Wiley & Sons, 2013.
 +
# ''Hyndman, R.J., Athanasopoulos G.'' Forecasting: principles and practice. — OTexts, 2015. https://www.otexts.org/book/fpp
 +
# ''Kanji, G.K.'' 100 statistical tests. — London: SAGE Publications, 2006.
 +
# ''Mukhopadhyay, N., de Silva, B. M.'' Sequential methods and their applications. — Boca Raton: Chapman and Hall/CRC, 2009.
 +
# ''Olsson, U.'' Generalized Linear Models: An Applied Approach. — Lund: Studentlitteratur, 2004.
 +
# ''Pearl J., Glymour M., Jewell N.P.'' Causal Inference in Statistics: A Primer. — Chichester: John Wiley & Sons, 2016.
 +
# ''Tabachnick, B.G., Fidell, L.S.'' Using Multivariate Statistics. — Boston: Pearson Education, 2012.
 +
# ''Wooldridge, J.'' Introductory Econometrics: A Modern Approach. — Mason: South-Western Cengage Learning, 2013.
 +
<!---
 +
# ''Baltagi, B.H.'' Econometric analysis of panel data. — Chichester: John Wiley & Sons, 2005.
 +
# ''Wilcox, R.R.'' Introduction to Robust Estimation and Hypothesis Testing. — Academic Press, 2012.
 +
# ''Лапач С.Н. , Чубенко А.В., Бабич П.Н.'' Статистика в науке и бизнесе. — Киев: Морион, 2002.
 +
# ''Лукашин, Ю.П.'' Адаптивные методы краткосрочного прогнозирования временных рядов. — М.: Финансы и статистика, 2003.
 +
# ''Магнус, Я.Р., Катышев, П.К., Пересецкий, А.А.'' Эконометрика. Начальный курс: Учеб. — 7-е изд., испр. — М.: Дело, 2005.
 +
# ''Дрейпер, Н.Р., Смит Г.'' Прикладной регрессионный анализ. — М.: Издательский дом "Вильямс", 2007.
 +
# ''Kirchgassner, G., Wolters, J., Hassler, U.'' Introduction to modern time series analysis. — Heidelberg: Springer, 2013.
 +
# ''Shumway, R.H, Stoffer, D.S.'' Time Series Analysis and Its Applications with R Examples. — New York: Springer, 2011.
 +
# ''Hyndman, R.J., Koehler, A.B., Ord, J.K., Snyder, R.D.'' Forecasting with Exponential Smoothing: The State Space Approach. — Berlin: Springer, 2008.
# ''Орлов А. И.'' Эконометрика. — М.: Экзамен, 2003.
# ''Орлов А. И.'' Эконометрика. — М.: Экзамен, 2003.
# ''Айвазян С. А., Мхитарян В. С.'' Прикладная статистика. Том 1. Теория вероятностей и прикладная статистика. — М.: Юнити, 2001.
# ''Айвазян С. А., Мхитарян В. С.'' Прикладная статистика. Том 1. Теория вероятностей и прикладная статистика. — М.: Юнити, 2001.
# ''Айвазян С. А.'' Прикладная статистика. Том 2. Основы эконометрики. — М.: Юнити, 2001.
# ''Айвазян С. А.'' Прикладная статистика. Том 2. Основы эконометрики. — М.: Юнити, 2001.
# ''Вучков И., Бояджиева А., Солаков Е.'' Прикладной линейный регрессионный анализ. — М.: Финансы и статистика, 1987.
# ''Вучков И., Бояджиева А., Солаков Е.'' Прикладной линейный регрессионный анализ. — М.: Финансы и статистика, 1987.
-
# {{Публикация:Hastie 2001 The Elements of Statistical Learning}}
+
# ''Strijov, V., Shakin, V.'' [http://strijov.com/papers/10-v_strijov.pdf Index construction: the expert-statistical method]. // Environmental research, engineering and management 2003. No.4 (26), P.51-55.
-
# ''Kanji G. K.'' 100 statistical tests. — London: Thousand Oaks: New Dehli: SAGE Publications, 2006.
+
# ''Стрижов В. В., Казакова Т. В.'' [http://strijov.com/papers/stable_idx4zavlab_after_recenz.pdf Устойчивые интегральные индикаторы с выбором опорного множества описаний]. // Заводская лаборатория. Диагностика материалов. 2007 (7). C. 72-76.
-
# ''Good P.'' Permutation, Parametric and Bootstrap Tests of Hypotheses: A Practical Guide to Resampling Methods for Testing Hypotheses. — New York: Springer, 2005.
+
# ''Литвак Б. Г.'' Экспертная информация: Методы получения и анализа. – М.: Радио и связь, 1982. – 184 с.
-
# ''Bretz F., Hothorn T., Westfall P.'' Multiple Comparisons Using R. — Boca Raton: Chapman and Hall/CRC, 2010.
+
# ''Стрижов В. В.'' [http://strijov.com/papers/strijov06precise.pdf Уточнение экспертных оценок с помощью измеряемых данных]. // Заводская лаборатория. Диагностика материалов. 2006 (7). С.59-64.
-
# ''Дрейпер Н. Р., Смит Г.'' Прикладной регрессионный анализ. — М.: Издательский дом "Вильямс", 2007.
+
-
# ''Wooldridge J.'' Introductory Econometrics: A Modern Approach. — Mason: South-Western Cengage Learning, 2009.
+
-
# ''Hosmer D. W., Lemeshow S.'' Applied Logistic Regression. — New York: John Wiley & Sons, 2000.
+
-
# ''Вальд А.'' Последовательный анализ. - М.: Физматлит, 1960.
+
-
# ''Shumway R.H, Stoffer D.S.'' Time Series Analysis and Its Applications with R Examples. — New York: Springer, 2011.
+
-
<!---
+
-
#''Strijov, V., Shakin, V.'' [http://strijov.com/papers/10-v_strijov.pdf Index construction: the expert-statistical method]. // Environmental research, engineering and management 2003. No.4 (26), P.51-55.
+
-
#''Стрижов В. В., Казакова Т. В.'' [http://strijov.com/papers/stable_idx4zavlab_after_recenz.pdf Устойчивые интегральные индикаторы с выбором опорного множества описаний]. // Заводская лаборатория. Диагностика материалов. 2007 (7). C. 72-76.
+
-
#''Литвак Б. Г.'' Экспертная информация: Методы получения и анализа. – М.: Радио и связь, 1982. – 184 с.
+
-
#''Стрижов В. В.'' [http://strijov.com/papers/strijov06precise.pdf Уточнение экспертных оценок с помощью измеряемых данных]. // Заводская лаборатория. Диагностика материалов. 2006 (7). С.59-64.
+
# ''Тюрин Ю. Н., Макаров А. А.'' Анализ данных на компьютере. — М.: Инфра-М, 2003.
# ''Тюрин Ю. Н., Макаров А. А.'' Анализ данных на компьютере. — М.: Инфра-М, 2003.
-
--->
 
-
== Ссылки ==
+
== Подстраницы ==
-
* [http://ru.wikipedia.org/wiki/%D0%A1%D1%82%D0%B0%D1%82%D0%B8%D1%81%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B0%D1%8F_%D0%B3%D0%B8%D0%BF%D0%BE%D1%82%D0%B5%D0%B7%D0%B0 Википедия: Проверка статистических гипотез]
+
-
* [http://ru.wikipedia.org/wiki/%D0%A1%D1%82%D0%B0%D1%82%D0%B8%D1%81%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B8%D0%B9_%D0%BA%D1%80%D0%B8%D1%82%D0%B5%D1%80%D0%B8%D0%B9 Википедия: Статистический критерий]
+
-
* [http://www.statsoft.ru/home/portal/default.asp Статистический Портал StatSoft]
+
-
* [http://www.statsoft.ru/home/textbook/glossary Электронный статистический словарь StatSoft]
+
 +
--->
-
== Подстраницы ==
 
-
<!---* [[Статистический анализ данных (курс лекций, К.В.Воронцов)/2008|Список студентов каф. ММП ВМК (2008 год)]]
 
-
* [[Статистический анализ данных (курс лекций, К.В.Воронцов)/2009|Практические задания для студентов каф. ММП ВМК (2009 год)]]
 
-
* [[Статистический анализ данных (курс лекций, К.В.Воронцов)/2010|Практические задания для студентов каф. ММП ВМК (2010 год)]]
 
-
* [[Статистический анализ данных (курс лекций, К.В.Воронцов)/2011, ФУПМ|Практические задания для студентов ФУПМ МФТИ (2011 год)]]
 
-
* [[Статистический анализ данных (курс лекций, К.В.Воронцов)/2011|Практические задания для студентов каф. ММП ВМК (2011 год)]]
 
-
* [[Статистический анализ данных (курс лекций, К.В.Воронцов)/2012, ФУПМ|Практические задания для студентов ФУПМ МФТИ (2012 год)]]
 
-
* [[Статистический анализ данных (курс лекций, К.В.Воронцов)/2012|Практические задания для студентов каф. ММП ВМК (2012 год)]]
 
-
* [[Статистический анализ данных (курс лекций, К.В.Воронцов)/2013, ФУПМ|Практические задания для студентов ФУПМ МФТИ (2013 год)]]--->
 
-
* [[Статистический анализ данных (курс лекций, К.В.Воронцов)/2013|Практические задания для студентов каф. ММП ВМК (2013 год)]]
 
[[Категория:Учебные курсы]]
[[Категория:Учебные курсы]]

Текущая версия

Содержание

Курс знакомит студентов с основными задачами и методами прикладной статистики.

Цели курса — связать теорию и практику, научить студентов «видеть» статистические задачи в различных предметных областях и правильно применять методы прикладной статистики, показать на практических примерах возможности и ограничения статистических методов. Курс имеет скорее методологическую, чем математическую направленность и не содержит доказательств теорем.

Каждый метод описывается по единой схеме:

  • постановка задачи;
  • примеры прикладных задач из области биологии, экономики, социологии, производства, медицины;
  • базовые предположения и границы применимости;
  • описание метода (для методов проверки статистических гипотез: нулевая гипотеза и альтернативы, статистика, её нулевое распределение);
  • достоинства, недостатки, ограничения, «подводные камни»;
  • сравнение с другими методами.

Курс читается студентам 4 курса кафедры математических методов прогнозирования ВМиК МГУ с 2007 года и студентам 4 курса факультета управления и прикладной математики МФТИ с 2011 года. Предполагается, что студенты уже прослушали курсы теории вероятностей и математической статистики.

Программа курса

Введение

Обзор необходимых сведений из теории вероятностей и математической статистики.

Материалы занятия

Параметрическая проверка гипотез

[Kanji, Кобзарь]

  • Критерии нормальности: критерий хи-квадрат (Пирсона), критерий Шапиро-Уилка, критерии, основанные на различиях между эмпирической и теоретической функциями распределения, критерий Колмогорова-Смирнова (Лиллиефорса). Упрощённая проверка нормальности по асимметрии и эксцессу: критерий Харке-Бера.
  • Нормальные параметрические критерии для проверки гипотез: гипотезы о положении, гипотезы о рассеивании.
  • Гипотезы о средних: t- и z-критерии Стьюдента для одной и двух выборок, связанные выборки
  • Гипотезы о дисперсиях: критерии хи-квадрат и Фишера.
  • Гипотезы о значениях параметра распределения Бернулли: сравнение значения параметра с заданным, сравнение параметров распределений двух выборок (случаи связанных и независимых выборок).
  • Доверительный интервал для параметра распределения Бернулли: Вальда, Уилсона. Доверительные интервалы Уилсона для разности параметров двух выборок.

Материалы занятия

Непараметрическая проверка гипотез

[Bonnini, Wilcox]

Материалы занятия

Множественная проверка гипотез

[Bretz, Dickhaus]

  • Множественная проверка гипотез. Примеры задач. Меры числа ошибок первого рода.
  • FWER, поправка Бонферрони.
  • Нисходящие процедуры множественной проверки: общий вид, метод Холма.
  • Процедуры множественной проверки гипотез при наличии дополнительной информации о признаках: независимость, subset pivotality, PRDS.
  • Оценка числа верных нулевых гипотез и её применение.
  • FDR, восходящие процедуры, методы Бенджамини-Хохберга и Бенджамини-Иекутиели.

Материалы занятия

Дисперсионный анализ (ANOVA)

[Tabachnick, Лагутин, Кобзарь]

Материалы занятия

Анализ зависимостей

[Agresti, Лагутин].

Материалы занятия

Линейный регрессионный анализ

[Wooldridge]

Материалы занятия

Обобщения линейной регрессии

[Olsson, Hosmer, Cameron]

  • Обобщённые линейные модели. Связующая функция. Оценка параметров методом максимального правдоподобия.
  • Доверительные интервалы и оценка значимости коэффициентов, критерии Вальда и отношения правдоподобия.
  • Меры качества обобщённых линейных моделей: аномальность, информационные критерии.
  • Постановка задачи логистической регрессии. Логит, интерпретация коэффициентов логистической регрессии.
  • Проверка линейности логита: сглаженные диаграммы рассеяния, дробные полиномы.
  • Классификация на основе логистической регрессии: чувствительность, специфичность, выбор порога.
  • Регрессия счётного признака. Пуассоновская модель.
  • Предположение о равенстве матожидания и дисперсии и его проверка. Отрицательная биномиальная модель. Устойчивая оценка дисперсии коэффициентов.

Материалы занятия

Анализ временных рядов

[Hyndman]

  • Временной ряд. Основные компоненты эконометрических временных рядов: тренд, сезонность. Календарные эффекты.
  • Анализ остатков. Автокорреляционная функция. Коррелограмма и её интерпретация. Проверка гипотезы о равенстве нулю автокорреляции и группы автокорреляций (критерий Льюнга-Бокса). Проверка гипотезы стационарности (критерий KPSS).
  • Модели AR, MA, ARMA. Частичная автокорреляция. Подбор параметров модели по коррелограммам. Переход к ряду разностей, модель ARIMA.
  • Сезонные эффекты и модели их учёта: SARMA, SARIMA.
  • Учёт дополнительных признаков, модель regARIMA. Схема настройки параметров модели.
  • Прогнозирование методами экспоненциального сглаживания. Простое экспоненциальное сглаживание Брауна, методы Хольта и Хольта-Уинтерса. Таксономия моделей ETS.
  • Меры качества прогнозов, примеры оценок. Информационные критерии. U-коэффициент Тейла.
  • Сравнение качества двух прогнозов. Непараметрические критерии, критерий Диболда-Мариано, его модификация для маленьких выборок.
  • Обнаружение структурных изменений. Критерий Чоу.
  • Причинность по Грейнджеру. Критерий Грейнджера (для двух рядов, для множества рядов).
  • Адаптивная селекция и композиция моделей прогнозирования. «Forecast combination puzzle». Агрегирующий алгоритм Вовка.
  • Прогнозирование иерархических совокупностей рядов.
  • Сложные сезонности в моделях экспоненциального сглаживания (TBATS) и авторегрессии.

Материалы занятий: часть 1, часть 2.

Последовательный анализ

[Вальд, Mukhopadhyay]

  • Применение в задачах проверки гипотез о значениях параметра биномиального распределения: сравнение значения с заданным, сравнение двух значений.
  • Применение в задачах проверки гипотез о значениях параметров нормального распределения: сравнение значения среднего с заданными (симметричный и несимметричный варианты), сравнение значения дисперсии с заданным.
  • Последовательные доверительные интервалы для среднего нормальной совокупности с неизвестной дисперсией (двухэтапная, последовательная процедуры). Процедуры для разности средних двух нормальных совокупностей, случаи равных и неравных дисперсий.
  • Непараметрические последовательные доверительные интервалы для среднего и медианы.

Материалы занятия

Анализ причинно-следственных связей

[Pearl]

  • Неразрешимость парадокса Симпсона в рамках классической статистики.
  • Причинные графы, цепочки, вилки, коллайдеры. D-разделимость.
  • Интервенции. Оценка эффекта по обзервационным данным. Хирургия графа и формула корректировки (adjustment formula).
  • Правило причинного эффекта. Варианты для отсутствия родителей: правило задней двери, правило передней двери.
  • Propensity score, обратное вероятностное взвешивание.
  • Графы в линейных моделях. Связь со структурными уравнениями.


Литература

  1. Вальд, А. Последовательный анализ. — М.: Физматлит, 1960.
  2. Лагутин, М.Б. Наглядная математическая статистика. В двух томах. — М.: П-центр, 2003.
  3. Кобзарь, А.И. Прикладная математическая статистика. — М.: Физматлит, 2006.
  4. Agresti, A. Categorical Data Analysis. — Hoboken: John Wiley & Sons, 2013.
  5. Bonnini, S., Corain, L., Marozzi, M., Salmaso S. Nonparametric Hypothesis Testing: Rank and Permutation Methods with Applications in R. — Hoboken: John Wiley & Sons, 2014.
  6. Bretz, F., Hothorn, T., Westfall, P. Multiple Comparisons Using R. — Boca Raton: Chapman and Hall/CRC, 2010.
  7. Cameron, A.A., Trivedi, P.K. Regression Analysis of Count Data. — Cambridge: Cambridge University Press, 2013.
  8. Dickhaus, T. Simultaneous Statistical Inference With Applications in the Life Sciences. — Heidelberg: Springer, 2014.
  9. Good, P. Permutation, Parametric and Bootstrap Tests of Hypotheses: A Practical Guide to Resampling Methods for Testing Hypotheses. — New York: Springer, 2005.
  10. Hastie, T., Tibshirani, R., Friedman, J. The Elements of Statistical Learning, 2nd edition. — Springer, 2009. — 533 p.  (подробнее)
  11. Hosmer, D.W., Lemeshow S., Sturdivant, R.X. Applied Logistic Regression. — Hoboken: John Wiley & Sons, 2013.
  12. Hyndman, R.J., Athanasopoulos G. Forecasting: principles and practice. — OTexts, 2015. https://www.otexts.org/book/fpp
  13. Kanji, G.K. 100 statistical tests. — London: SAGE Publications, 2006.
  14. Mukhopadhyay, N., de Silva, B. M. Sequential methods and their applications. — Boca Raton: Chapman and Hall/CRC, 2009.
  15. Olsson, U. Generalized Linear Models: An Applied Approach. — Lund: Studentlitteratur, 2004.
  16. Pearl J., Glymour M., Jewell N.P. Causal Inference in Statistics: A Primer. — Chichester: John Wiley & Sons, 2016.
  17. Tabachnick, B.G., Fidell, L.S. Using Multivariate Statistics. — Boston: Pearson Education, 2012.
  18. Wooldridge, J. Introductory Econometrics: A Modern Approach. — Mason: South-Western Cengage Learning, 2013.
Личные инструменты