Статистический анализ данных (курс лекций, К.В.Воронцов)

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
м
(ссылки, ссылки, ссылки, ссылки, ссылки...)
Строка 5: Строка 5:
Каждый метод описывается по единой схеме:
Каждый метод описывается по единой схеме:
-
* постановка задачи,
+
* постановка задачи;
-
* примеры прикладных задач из области экономики, социологии, производства, медицины,
+
* примеры прикладных задач из области экономики, социологии, производства, медицины;
-
* базовые предположения и границы применимости,
+
* базовые предположения и границы применимости;
-
* описание метода (для методов проверки статистических гипотез: нулевая гипотеза и альтернативы, статистика, её функция распределения с эскизом графика, критическая область),
+
* описание метода (для методов проверки статистических гипотез: нулевая гипотеза и альтернативы, статистика, её функция распределения с эскизом графика, критическая область);
-
* достоинства и недостатки,
+
* достоинства, недостатки, ограничения, «подводные камни»;
* сравнение с другими методами.
* сравнение с другими методами.
-
Курс читается студентам 5 курса кафедры «Математические методы прогнозирования» ВМиК МГУ, начиная с 2007 года. Предполагается, что студенты уже прослушали курсы теории вероятностей и математической статистики, знакомы с элементами дискриминантного, факторного и кластерного анализа (по кафедральному курсу [[Машинное обучение (курс лекций, К.В.Воронцов)|«Математические методы распознавания образов»]]), регрессионного анализа и анализа временных рядов (по кафедральному курсу ММП).
+
Курс читается студентам 5 курса кафедры [[Математические методы прогнозирования (кафедра ВМиК МГУ)|Математические методы прогнозирования ВМиК МГУ]], начиная с 2007 года. Предполагается, что студенты уже прослушали курсы теории вероятностей и математической статистики, знакомы с элементами дискриминантного, факторного и кластерного анализа (по кафедральному курсу [[Машинное обучение (курс лекций, К.В.Воронцов)|«Математические методы распознавания образов»]]), регрессионного анализа и анализа временных рядов (по кафедральному курсу ММП).
== Программа курса ==
== Программа курса ==
=== Введение ===
=== Введение ===
-
Обзор необходимых сведений из теории вероятностей и математической статистики. Понятия простой выборки и статистики. Примеры статистик: моменты, асимметрия и эксцесс, вариационный ряд, эмпирическое распределение. Проверка статистических гипотез, понятия критической области, критической функции, ошибок I и II рода. Односторонние и двусторонние критерии. Свойства критериев: несмещённость, состоятельность, равномерная мощность. Статистические точечные оценки и их свойства: несмещённость, состоятельность, эффективность, достаточность, робастность. Интервальные оценки, понятия доверительного интервала и коэффициента доверия. Доверительное оценивание по вариационному ряду. Доверительные интервалы для среднего и медианы [Лапач, 104]. Метод доверительных интервалов Неймана. Понятия параметрических, непараметрических и робастных методов. Структура прикладной статистики.
+
Обзор необходимых сведений из теории вероятностей и математической статистики.
 +
 
 +
* Понятия простой выборки и статистики. Примеры статистик: [[момент]]ы, [[асимметрия]] и [[эксцесс]], [[вариационный ряд]], [[эмпирическое распределение]].
 +
* [[Проверка статистических гипотез]], понятия [[критическая область|критической области]], [[критическая функция|критической функции]], ошибок I и II рода. Односторонние и двусторонние критерии.
 +
* Свойства критериев: несмещённость, состоятельность, равномерная мощность.
 +
* Статистические [[точечная оценка|точечные оценки]] и их свойства: [[несмещённость]], [[состоятельность]], [[эффективность]], [[достаточность]], [[робастность]].
 +
* [[Интервальная оценка|Интервальные оценки]], понятия [[Доверительный интервал|доверительного интервала]] и [[Коэффициент доверия|коэффициента доверия]]. Доверительное оценивание по вариационному ряду. Доверительные интервалы для среднего и медианы [Лапач, 104].
 +
* Метод доверительных интервалов Неймана.
 +
* Понятия параметрических, непараметрических и робастных методов. Структура прикладной статистики.
=== Параметрическая проверка гипотез ===
=== Параметрическая проверка гипотез ===
-
Проверка гипотез о положении и рассеивании (нормальные параметрические критерии) [Лапач, § 3.2]. Примеры прикладных задач из областей медицины, агрономии, маркетинга. Систематизация критериев. Проверка гипотезы равенства средних: критерий Стьюдента для одной и двух выборок, связанные выборки, метод множественных сравнений Шеффе, метод LSD. Пример: задача формирования ценовых коридоров. Проверка равенства дисперсий: критерии Фишера, Кохрена, Бартлета. Проверка нормальности: критерии Колмогорова-Смирнова, омега-квадрат фон Мизеса, хи-квадрат Пирсона. Исторический пример: проверка закона Менделя А.Н.Колмогоровым [Тюрин, 306]. Упрощённые проверки по асимметрии и эксцессу. Эмпирические подтверждения ненормальности реальных измерений [Орлов, стр. 71–77].
+
* [[Нормальные параметрические критерии]] для проверки гипотез: [[гипотезы о положении]], [[гипотезы о рассеивании]] [Лапач, §3.2]. Примеры прикладных задач из областей медицины, агрономии, маркетинга.
 +
* Систематизация критериев.
 +
* [[Гипотеза о равенстве средних]]: [[критерий Стьюдента]] для одной и двух выборок, связанные выборки, [[метод множественных сравнений Шеффе]], [[метод LSD]]. Пример: задача формирования ценовых коридоров.
 +
* [[Гипотеза о равенстве дисперсий]]: [[критерий Фишера]], [[критерий Кокрена]], [[критерий Бартлета]].
 +
* [[Критерии нормальности]]: [[критерий Колмогорова-Смирнова]], [[критерий омега-квадрат]] фон Мизеса, [[критерий хи-квадрат]] (Пирсона). Исторический пример: проверка закона Менделя А.Н.Колмогоровым [Тюрин, 306]. Упрощённые проверки нормальности по асимметрии и эксцессу. Эмпирические подтверждения ненормальности реальных измерений [Орлов, стр. 71–77].
=== Непараметрическая проверка гипотез ===
=== Непараметрическая проверка гипотез ===
-
Проверка гипотез о положении и рассеивании (непараметрические ранговые критерии) [Лапач, § 3.3]. Элементы теории измерений: номинальные, порядковые и количественные переменные; инварианты. Разновидности средних: по Коши, по Колмогорову, мода, медиана. Среднее в порядковой шкале [Орлов, гл. 3]. Пример: маркетинговое исследование привлекательности продуктов (образовательных услуг); важность постановки вопросов при формировании анкет [Орлов, 229]. Вариационный ряд, ранги и связки. Ранговые критерии: Уилкоксона-Манна-Уитни, знаков, Уилкоксона двухвыборочный, Уилкоксона для связных выборок, Краскела-Уоллиса, Зигеля-Тьюки, медианный одновыборочный и двухвыборочный. Доверительные интервалы для медианы (Уилкоксона-Мозеса) и сдвига (Уилкоксона-Тьюки). Множественные сравнения на основе рангов Фридмана.
+
* Непараметрические ранговые критерии для проверки гипотез: [[гипотезы о положении]], [[гипотезы о рассеивании]] [Лапач, §3.3].
 +
* Элементы [[теория измерений|теории измерений]]: номинальные, порядковые и количественные переменные; инварианты. Разновидности [[Обобщённое среднее|средних]]: по Коши, по Колмогорову, мода, медиана. Среднее в порядковой шкале [Орлов, гл. 3]. Пример: маркетинговое исследование привлекательности продуктов (образовательных услуг); важность постановки вопросов при формировании анкет [Орлов, 229].
 +
* [[Вариационный ряд]], ранги и связки.
 +
* [[Ранговые критерии]]: [[критерий Уилкоксона-Манна-Уитни]], [[критерий знаков]], [[критерий Уилкоксона двухвыборочный]], [[критерий Уилкоксона для связных выборок]], [[критерий Краскела-Уоллиса]], [[критерий Зигеля-Тьюки]], [[медианный критерий]]: одновыборочный и двухвыборочный.
 +
* Доверительные интервалы для медианы (Уилкоксона-Мозеса) и сдвига (Уилкоксона-Тьюки).
 +
* Множественные сравнения на основе рангов Фридмана.
=== Дисперсионный анализ (ANOVA) ===
=== Дисперсионный анализ (ANOVA) ===
-
[Лапач, 193, Кулаичев, 170]. Модели факторного эксперимента. Примеры: факторы, влияющие на успешность решения математических задач; факторы, влияющие на объёмы продаж. Однофакторная параметрическая модель: метод Шеффе. Однофакторная непараметрическая модель: критерии Краскела-Уоллиса, Джонкхиера. Общий случай модели с постоянными факторами, теорема Кокрена. Двухфакторная непараметрическая модель: критерии Фридмана [Лапач, 203], Пейджа. Примеры: сравнение эффективности методов производства, агротехнических приёмов. Двухфакторный нормальный анализ. Задача ковариационного анализа.
+
[Лапач, 193, Кулаичев, 170].
 +
* Модели факторного эксперимента. Примеры: факторы, влияющие на успешность решения математических задач; факторы, влияющие на объёмы продаж.
 +
* [[Однофакторная параметрическая модель]]: метод Шеффе.
 +
* [[Однофакторная непараметрическая модель]]: [[критерий Краскела-Уоллиса]], [[критерий Джонкхиера]].
 +
* Общий случай модели с постоянными факторами, теорема Кокрена.
 +
* [[Двухфакторная непараметрическая модель]]: [[критерий Фридмана]] [Лапач, 203], [[критерий Пейджа]]. Примеры: сравнение эффективности методов производства, агротехнических приёмов.
 +
* [[Двухфакторный нормальный анализ]].
 +
* [[Ковариационный анализ]] (постановка задачи).
=== Корреляционный анализ ===
=== Корреляционный анализ ===
-
[Лапач, 174]. Корреляция Пирсона, значимость коэффициента корреляции (критерий Стьюдента). Частная корреляция. Ранговая корреляция, коэффициенты корреляции Спирмена, Кенделла. Конкордация Кенделла.
+
[Лапач, 174].
 +
* [[Корреляция]] Пирсона, значимость коэффициента корреляции ([[критерий Стьюдента]]).
 +
* [[Частная корреляция]].
 +
* [[Ранговая корреляция]], [[коэффициент корреляции Спирмена]], [[коэффициент корреляции Кенделла]].
 +
* [[Конкордация Кенделла]].
=== Анализ таблиц сопряженности (кросстабуляции) ===
=== Анализ таблиц сопряженности (кросстабуляции) ===
-
[Лапач, 204, 316, Лагутин, Т2:174, Кулаичев, 162]. Критерий согласия Пирсона: простая гипотеза, сложная гипотеза. Таблица сопряженности: K×L и 2×2. Парадокс хи-квадрат [Лагутин, Т2:84]. Точный тест Фишера. Понятие закономерности в алгоритмах классификации, статистические и логические закономерности. Примеры: посещаемость сайтов пользователями Интернет, анализ результатов голосования, маркетинговые исследования.
+
[Лапач, 204, 316, Лагутин, Т2:174, Кулаичев, 162].
 +
* [[Критерий согласия Пирсона]]: простая гипотеза, сложная гипотеза.
 +
* [[Таблица сопряженности]]: K×L и 2×2.
 +
* [[Парадокс хи-квадрат]] [Лагутин, Т2:84].
 +
* [[Точный тест Фишера]].
 +
* Понятие [[закономерность|закономерности]] в алгоритмах классификации, статистические и логические закономерности. Примеры: посещаемость сайтов пользователями Интернет, анализ результатов голосования, маркетинговые исследования.
=== Анализ рисков. Пробит- и логит-анализ ===
=== Анализ рисков. Пробит- и логит-анализ ===
-
[Лапач, 387]. Приложения в токсикологии, страховании, эконометрике (оценивание спроса). Оценивание апостериорных вероятностей в задачах классификации. Анализ кредитных рисков: оценивание вероятности дефолта, имитационное моделирование. Анализ выживаемости. Функция выживаемости и функция интенсивности рисков. Процедура Каплана-Мейера. Доверительный интервал выживаемости. Сравнение двух функций выживаемости: логранговый критерий, критерий Гехана. Случайные блуждания, задача о разорении игрока.
+
[Лапач, 387].
 +
* [[Пробит-анализ]] и [[логит-анализ]]. Приложения в токсикологии, страховании, эконометрике (оценивание спроса). Оценивание апостериорных вероятностей в задачах классификации. [[Анализ кредитных рисков]]: оценивание вероятности дефолта, имитационное моделирование.
 +
* [[Анализ выживаемости]]. [[Функция выживаемости]] и [[функция интенсивности рисков]]. [[Процедура Каплана-Мейера]]. Доверительный интервал выживаемости.
 +
* Сравнение двух функций выживаемости: [[логранговый критерий]], [[критерий Гехана]].
 +
* [[Случайные блуждания]], [[задача о разорении игрока]].
=== Выборочный анализ ===
=== Выборочный анализ ===
-
Простой случайный выбор. Приложения в социологии, выборочном контроле качества, маркетинге [Лапач, 312, Орлов]. Пропорциональный выбор и преимущества стратификации. Оценки достаточной длины выборки [Лапач, 361]. Другие методы выбора: квотированный, кластерный, многоступенчатый кластерный. Выборочный контроль качества [Лапач, 351]. Одноступенчатый и двухступенчатый план контроля. Оперативная характеристика плана контроля. Парадоксы выборочного контроля.
+
* [[Простой случайный выбор]]. Приложения в социологии, маркетинге [Лапач, 312, Орлов].
 +
* [[Пропорциональный выбор]] и преимущества [[стратификация|стратификации]]. Оценки достаточной длины выборки [Лапач, 361]. Другие методы выбора: квотированный, кластерный, многоступенчатый кластерный.
 +
* [[Выборочный контроль качества]] [Лапач, 351]. Одноступенчатый и двухступенчатый [[план контроля]]. Оперативная характеристика плана контроля. Парадоксы выборочного контроля.
=== Регрессионный анализ ===
=== Регрессионный анализ ===
-
Многомерная линейная регрессия. Метод наименьших квадратов. Гипотеза нормальности и ее нарушение. Гетероскедастичность. Обобщённый метод наименьших квадратов [Вучков, Айвазян, том 2]. Факторный анализ [Айвазян, том 1, 526, 551]: метод главных компонент, геометрическая интерпретация, выбор числа значимых факторов [Кулаичев, 315].
+
* [[Многомерная линейная регрессия]]. [[Метод наименьших квадратов]]. Гипотеза нормальности и ее нарушение. [[Гетероскедастичность]]. Обобщённый метод наименьших квадратов [Вучков, Айвазян, том 2].
-
Устойчивость регрессионных моделей. Мультиколлинеарность. Ридж-регрессия. Лассо Тибширани. Отбор признаков и шаговая регрессия [Friedman]. Проблема выбросов и робастная регрессия. M-оценки, метод наименьших модулей. L-оценки, винзоризация выборки [Вучков].
+
* [[Факторный анализ]] [Айвазян, том 1, 526, 551]: [[метод главных компонент]], геометрическая интерпретация, выбор числа значимых факторов [Кулаичев, 315].
 +
* Устойчивость регрессионных моделей. [[Мультиколлинеарность]]. [[Ридж-регрессия]]. [[Лассо Тибширани]]. [[Отбор признаков]] и [[шаговая регрессия]] [Friedman]. Проблема выбросов и [[робастная регрессия]]. [[M-оценки]], [[метод наименьших модулей]]. [[L-оценки]], [[винзоризация выборки]] [Вучков].
=== Оценивание регрессионных моделей ===
=== Оценивание регрессионных моделей ===
-
Проверка адекватности модели: по выборочному коэффициенту детерминации, по дисперсии остатков, путём сравнения вложенных моделей. Анализ остатков. U-критерий Уилкоксона-Манна-Уитни, Зигеля-Тьюки, Вальда-Вольфовица. Пример прикладной задачи: анализ деятельности паевых инвестиционных фондов. Введение нелинейности в модель регрессии. Регуляризация коэффициентов регрессии, медленно изменяющихся во времени. Непараметрическая регрессия: ядерное сглаживание, формула Надарая-Ватсона. Выбор ядра и ширины окна. Совмещение многомерной линейной регрессии и одномерного сглаживания: метод настройки с возвращениями (backfitting). Проверка гипотезы о значимости (не равенства нулю) коэффициентов линейной регрессии. Доверительные интервалы для коэффициентов и отклика.
+
* Проверка адекватности модели. [[Выборочный коэффициент детерминации]]. [[Дисперсия остатков]]. [[Вложенные модели]].
 +
* [[Анализ остатков]]. [[U-критерий]] Уилкоксона-Манна-Уитни, [[критерий Зигеля-Тьюки]], [[критерий Вальда-Вольфовица]]. Пример прикладной задачи: анализ деятельности паевых инвестиционных фондов. Введение нелинейности в модель регрессии. Регуляризация коэффициентов регрессии, медленно изменяющихся во времени.
 +
* [[Непараметрическая регрессия]]: [[ядерное сглаживание]], формула Надарая-Ватсона. Выбор ядра и ширины окна.
 +
* Совмещение многомерной линейной регрессии и одномерного сглаживания: [[backfitting|метод настройки с возвращениями]] (backfitting).
 +
* Проверка гипотезы о значимости (не равенства нулю) коэффициентов линейной регрессии.
 +
* Доверительные интервалы для коэффициентов и отклика.
=== Анализ временных рядов ===
=== Анализ временных рядов ===
-
Понятие временного ряда. Стационарность и эргодичность. Основные компоненты временного ряда: тренд, сезонность и циклические колебания, шумы, календарные эффекты. Структурные модели временного ряда [Айвазян, том 2, Лукашин].
+
* [[Временной ряд]]. [[Стационарность]] и [[эргодичность]].
-
Прогнозирование временных рядов. Простейшие адаптивные методы прогнозирования. Экспоненциальное сглаживание, модели Брауна, Хольта-Уинтерса и Тейла-Вейджа. Процессы авторегрессии и проинтегрированного скользящего среднего (ARIMA) [Лукашин].
+
* Основные компоненты эконометрических временных рядов: [[тренд]], [[сезонность]], [[шум]]ы, [[циклические колебания]], календарные эффекты. Структурные модели временного ряда [Айвазян, том 2, Лукашин].
 +
* Прогнозирование временных рядов. Простейшие методы прогнозирования. [[Экспоненциальное сглаживание]], [[модель Брауна]], [[модель Хольта-Уинтерса]], [[модель Тейла-Вейджа]].
 +
* [[ARIMA|Процесс авторегрессии и проинтегрированного скользящего среднего]] (ARIMA) [Лукашин].
=== Построение интегральных индикаторов ===
=== Построение интегральных индикаторов ===
-
Понятие интегрального индикатора. Примеры прикладных задач. Линейные и ранговые шкалы. Методы построения интегрального индикатора «без учителя» [Strijov, 2003]. Устойчивые интегральные индикаторы [Стрижов, 2007]. Экспертные оценки [Литвак, Лапач, 353]. Матрица парных сравнений. Экспертно-статистический метод [Айвазян, том 2]. Согласование экспертных оценок [Стрижов, 2006].
+
* [[Интегральный индикатор]]. Примеры прикладных задач. Линейные и ранговые шкалы. Методы построения интегрального индикатора «без учителя» [Strijov, 2003]. Устойчивые интегральные индикаторы [Стрижов, 2007].
 +
* [[Экспертные оценки]] [Литвак, Лапач, 353]. [[Матрица парных сравнений]]. [[Экспертно-статистический метод]] [Айвазян, том 2]. [[Согласование экспертных оценок]] [Стрижов, 2006].
=== Панельные исследования ===
=== Панельные исследования ===

Версия 18:58, 19 июля 2008

Содержание

Курс знакомит студентов с основными задачами и методами прикладной статистики.

Цели курса — связать теорию и практику, научить студентов «видеть» статистические задачи в различных предметных областях и правильно применять методы прикладной статистики, показать на практических примерах возможности и ограничения статистических методов. Курс имеет скорее методологическую, чем математическую направленность и не содержит доказательств теорем.

Каждый метод описывается по единой схеме:

  • постановка задачи;
  • примеры прикладных задач из области экономики, социологии, производства, медицины;
  • базовые предположения и границы применимости;
  • описание метода (для методов проверки статистических гипотез: нулевая гипотеза и альтернативы, статистика, её функция распределения с эскизом графика, критическая область);
  • достоинства, недостатки, ограничения, «подводные камни»;
  • сравнение с другими методами.

Курс читается студентам 5 курса кафедры Математические методы прогнозирования ВМиК МГУ, начиная с 2007 года. Предполагается, что студенты уже прослушали курсы теории вероятностей и математической статистики, знакомы с элементами дискриминантного, факторного и кластерного анализа (по кафедральному курсу «Математические методы распознавания образов»), регрессионного анализа и анализа временных рядов (по кафедральному курсу ММП).

Программа курса

Введение

Обзор необходимых сведений из теории вероятностей и математической статистики.

Параметрическая проверка гипотез

Непараметрическая проверка гипотез

Дисперсионный анализ (ANOVA)

[Лапач, 193, Кулаичев, 170].

Корреляционный анализ

[Лапач, 174].

Анализ таблиц сопряженности (кросстабуляции)

[Лапач, 204, 316, Лагутин, Т2:174, Кулаичев, 162].

Анализ рисков. Пробит- и логит-анализ

[Лапач, 387].

Выборочный анализ

Регрессионный анализ

Оценивание регрессионных моделей

Анализ временных рядов

Построение интегральных индикаторов

Панельные исследования

Литература

  1. Лапач С. Н. , Чубенко А. В., Бабич П. Н. Статистика в науке и бизнесе. — Киев: Морион, 2002.
  2. Орлов А. И. Эконометрика. — М.: Экзамен, 2003.
  3. Лагутин М. Б. Наглядная математическая статистика. В двух томах. — М.: П-центр, 2003.
  4. Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006.
  5. Айвазян С. А., Мхитарян В. С. Прикладная статистика. Том 1. Теория вероятностей и прикладная статистика. — М.: Юнити, 2001.
  6. Айвазян С. А. Прикладная статистика. Том 2. Основы эконометрики. — М.: Юнити, 2001.
  7. Кулаичев А. П. Методы и средства комплексного анализа данных. — М.: Форум–Инфра-М, 2006.
  8. Тюрин Ю. Н., Макаров А. А. Анализ данных на компьютере. — М.: Инфра-М, 2003.
  9. Вучков И., Бояджиева А., Солаков Е. Прикладной линейный регрессионный анализ. — М.: Финансы и статистика, 1987.
  10. Лукашин Ю. П. Адаптивные методы краткосрочного прогнозирования временных рядов. — М.: Финансы и статистика, 2003.
  11. Friedman R., Hastie T., Tibshirani J. The elements of statistical learning. – Springer, 2001.
  12. Strijov, V., Shakin, V. Index construction: the expert-statistical method. // Environmental research, engineering and management 2003. No.4 (26), P.51-55.
  13. Стрижов В. В., Казакова Т. В. Устойчивые интегральные индикаторы с выбором опорного множества описаний. // Заводская лаборатория. Диагностика материалов. 2007 (7). C. 72-76.
  14. Литвак Б. Г. Экспертная информация: Методы получения и анализа. – М.: Радио и связь, 1982. – 184 с.
  15. Стрижов В. В. Уточнение экспертных оценок с помощью измеряемых данных. // Заводская лаборатория. Диагностика материалов. 2006 (7). С.59-64.