Статистический анализ данных (курс лекций, К.В.Воронцов)
Материал из MachineLearning.
Курс знакомит студентов с основными задачами и методами прикладной статистики.
Цели курса — связать теорию и практику, научить студентов «видеть» статистические задачи в различных предметных областях и правильно применять методы прикладной статистики, показать на практических примерах возможности и ограничения статистических методов. Курс имеет скорее методологическую, чем математическую направленность и не содержит доказательств теорем.
Каждый метод описывается по единой схеме:
- постановка задачи;
- примеры прикладных задач из области экономики, социологии, производства, медицины;
- базовые предположения и границы применимости;
- описание метода (для методов проверки статистических гипотез: нулевая гипотеза и альтернативы, статистика, её функция распределения с эскизом графика, критическая область);
- достоинства, недостатки, ограничения, «подводные камни»;
- сравнение с другими методами.
Курс читается студентам 5 курса кафедры Математические методы прогнозирования ВМиК МГУ, начиная с 2007 года. Предполагается, что студенты уже прослушали курсы теории вероятностей и математической статистики, знакомы с элементами дискриминантного, факторного и кластерного анализа (по кафедральному курсу «Математические методы распознавания образов»), регрессионного анализа и анализа временных рядов (по кафедральному курсу ММП).
Программа курса
Введение
Обзор необходимых сведений из теории вероятностей и математической статистики.
- Понятия простой выборки и статистики. Примеры статистик: моменты, асимметрия и эксцесс, вариационный ряд и порядковые статистики, эмпирическое распределение.
- Проверка статистических гипотез, основные понятия: уровень значимости, пи-величина (p-value), критическая область, критическая функция, ошибки I и II рода. Односторонние и двусторонние критические области.
- Свойства критериев: несмещённость, состоятельность, равномерная мощность.
- Статистические точечные оценки и их свойства: несмещённость, состоятельность, эффективность, достаточность, робастность.
- Интервальные оценки, понятия доверительного интервала и коэффициента доверия. Доверительное оценивание по вариационному ряду. Доверительные интервалы для среднего и медианы [Лапач, 104].
- Метод доверительных интервалов Неймана.
- Понятия параметрических, непараметрических и робастных методов. Структура прикладной статистики.
Параметрическая проверка гипотез
- Нормальные параметрические критерии для проверки гипотез: гипотезы о положении, гипотезы о рассеивании [Лапач, §3.2]. Примеры прикладных задач из областей медицины, агрономии, маркетинга.
- Систематизация критериев.
- Гипотеза о равенстве средних: критерий Стьюдента для одной и двух выборок, связанные выборки, гипотеза сдвига, метод множественных сравнений Шеффе, метод LSD. Пример: задача формирования ценовых коридоров.
- Гипотеза о равенстве дисперсий: критерий Фишера, критерий Кокрена, критерий Бартлета.
- Критерии нормальности: Критерий Шапиро-Уилка, критерий Колмогорова-Смирнова, критерий омега-квадрат фон Мизеса, критерий хи-квадрат (Пирсона). Исторический пример: проверка закона Менделя А.Н.Колмогоровым [Тюрин, 306]. Упрощённые проверки нормальности по асимметрии и эксцессу. Эмпирические подтверждения ненормальности реальных измерений [Орлов, стр. 71–77].
Непараметрическая проверка гипотез
- Непараметрические ранговые критерии для проверки гипотез: Критерий Уилкоксона-Манна-Уитни, гипотезы о положении, гипотезы о рассеивании [Лапач, §3.3].
- Элементы теории измерений: номинальные, порядковые и количественные переменные; инварианты. Разновидности средних: по Коши, по Колмогорову, мода, медиана. Среднее в порядковой шкале [Орлов, гл. 3]. Пример: маркетинговое исследование привлекательности продуктов (образовательных услуг); важность постановки вопросов при формировании анкет [Орлов, 229].
- Вариационный ряд, ранги и связки.
- Ранговые критерии: критерий Уилкоксона-Манна-Уитни, критерий знаков, критерий Уилкоксона двухвыборочный, критерий Уилкоксона для связных выборок, критерий Краскела-Уоллиса, критерий Зигеля-Тьюки, медианный критерий: одновыборочный и двухвыборочный.
- Доверительные интервалы для медианы (Уилкоксона-Мозеса) и сдвига (Уилкоксона-Тьюки).
- Множественные сравнения на основе рангов Фридмана.
Дисперсионный анализ (ANOVA)
[Лапач, 193, Кулаичев, 170].
- Модели факторного эксперимента. Примеры: факторы, влияющие на успешность решения математических задач; факторы, влияющие на объёмы продаж.
- Однофакторная параметрическая модель: метод Шеффе.
- Однофакторная непараметрическая модель: критерий Краскела-Уоллиса, критерий Джонкхиера.
- Общий случай модели с постоянными факторами, теорема Кокрена.
- Двухфакторная непараметрическая модель: критерий Фридмана [Лапач, 203], критерий Пейджа. Примеры: сравнение эффективности методов производства, агротехнических приёмов.
- Двухфакторный нормальный анализ.
- Ковариационный анализ (постановка задачи).
Корреляционный анализ
[Лапач, 174].
- Корреляция Пирсона, значимость коэффициента корреляции (критерий Стьюдента).
- Частная корреляция.
- Ранговая корреляция, коэффициент корреляции Спирмена, коэффициент корреляции Кенделла.
- Конкордация Кенделла.
Анализ таблиц сопряженности (кросстабуляции)
[Лапач, 204, 316, Лагутин, Т2:174, Кулаичев, 162].
- Критерий согласия Пирсона: простая гипотеза, сложная гипотеза.
- Таблица сопряженности: K×L и 2×2.
- Парадокс хи-квадрат [Лагутин, Т2:84].
- Точный тест Фишера.
- Понятие закономерности в алгоритмах классификации, статистические и логические закономерности. Примеры: посещаемость сайтов пользователями Интернет, анализ результатов голосования, маркетинговые исследования.
Анализ рисков. Пробит- и логит-анализ
[Лапач, 387].
- Пробит-анализ и логит-анализ. Приложения в токсикологии, страховании, эконометрике (оценивание спроса). Оценивание апостериорных вероятностей в задачах классификации. Анализ кредитных рисков: оценивание вероятности дефолта, имитационное моделирование.
- Анализ выживаемости. Функция выживаемости и функция интенсивности рисков. Процедура Каплана-Мейера. Доверительный интервал выживаемости.
- Сравнение двух функций выживаемости: логранговый критерий, критерий Гехана.
- Случайные блуждания, задача о разорении игрока.
Выборочный анализ
- Простой случайный выбор. Приложения в социологии, маркетинге [Лапач, 312, Орлов].
- Пропорциональный выбор и преимущества стратификации. Оценки достаточной длины выборки [Лапач, 361]. Другие методы выбора: квотированный, кластерный, многоступенчатый кластерный.
- Выборочный контроль качества [Лапач, 351]. Одноступенчатый и двухступенчатый план контроля. Оперативная характеристика плана контроля. Парадоксы выборочного контроля.
Регрессионный анализ
- Многомерная линейная регрессия. Метод наименьших квадратов. Гипотеза нормальности и ее нарушение. Гетероскедастичность. Обобщённый метод наименьших квадратов [Вучков, Айвазян, том 2].
- Факторный анализ [Айвазян, том 1, 526, 551]: метод главных компонент, геометрическая интерпретация, выбор числа значимых факторов [Кулаичев, 315].
- Устойчивость регрессионных моделей. Мультиколлинеарность. Ридж-регрессия. Лассо Тибширани. Отбор признаков и шаговая регрессия [Friedman]. Проблема выбросов и робастная регрессия. M-оценки, метод наименьших модулей. L-оценки, винзоризация выборки [Вучков].
Оценивание регрессионных моделей
- Проверка адекватности модели. Выборочный коэффициент детерминации. Дисперсия остатков. Вложенные модели.
- Анализ остатков. U-критерий Уилкоксона-Манна-Уитни, критерий Зигеля-Тьюки, критерий Вальда-Вольфовица. Пример прикладной задачи: анализ деятельности паевых инвестиционных фондов. Введение нелинейности в модель регрессии. Регуляризация коэффициентов регрессии, медленно изменяющихся во времени.
- Непараметрическая регрессия: ядерное сглаживание, формула Надарая-Ватсона. Выбор ядра и ширины окна.
- Совмещение многомерной линейной регрессии и одномерного сглаживания: метод настройки с возвращениями (backfitting).
- Проверка гипотезы о значимости (не равенства нулю) коэффициентов линейной регрессии.
- Доверительные интервалы для коэффициентов и отклика.
Анализ временных рядов
- Временной ряд. Стационарность и эргодичность.
- Основные компоненты эконометрических временных рядов: тренд, сезонность, шумы, циклические колебания, календарные эффекты. Структурные модели временного ряда [Айвазян, том 2, Лукашин].
- Прогнозирование временных рядов. Простейшие методы прогнозирования. Экспоненциальное сглаживание, модель Брауна, модель Хольта-Уинтерса, модель Тейла-Вейджа.
- Процесс авторегрессии и проинтегрированного скользящего среднего (ARIMA) [Лукашин].
Построение интегральных индикаторов
- Интегральный индикатор. Примеры прикладных задач. Линейные и ранговые шкалы. Методы построения интегрального индикатора «без учителя» [Strijov, 2003]. Устойчивые интегральные индикаторы [Стрижов, 2007].
- Экспертные оценки [Литвак, Лапач, 353]. Матрица парных сравнений. Экспертно-статистический метод [Айвазян, том 2]. Согласование экспертных оценок [Стрижов, 2006].
Панельные исследования
Литература
- Лапач С. Н. , Чубенко А. В., Бабич П. Н. Статистика в науке и бизнесе. — Киев: Морион, 2002.
- Орлов А. И. Эконометрика. — М.: Экзамен, 2003.
- Лагутин М. Б. Наглядная математическая статистика. В двух томах. — М.: П-центр, 2003.
- Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006.
- Айвазян С. А., Мхитарян В. С. Прикладная статистика. Том 1. Теория вероятностей и прикладная статистика. — М.: Юнити, 2001.
- Айвазян С. А. Прикладная статистика. Том 2. Основы эконометрики. — М.: Юнити, 2001.
- Кулаичев А. П. Методы и средства комплексного анализа данных. — М.: Форум–Инфра-М, 2006.
- Тюрин Ю. Н., Макаров А. А. Анализ данных на компьютере. — М.: Инфра-М, 2003.
- Вучков И., Бояджиева А., Солаков Е. Прикладной линейный регрессионный анализ. — М.: Финансы и статистика, 1987.
- Лукашин Ю. П. Адаптивные методы краткосрочного прогнозирования временных рядов. — М.: Финансы и статистика, 2003.
- Friedman R., Hastie T., Tibshirani J. The elements of statistical learning. – Springer, 2001.
- Strijov, V., Shakin, V. Index construction: the expert-statistical method. // Environmental research, engineering and management 2003. No.4 (26), P.51-55.
- Стрижов В. В., Казакова Т. В. Устойчивые интегральные индикаторы с выбором опорного множества описаний. // Заводская лаборатория. Диагностика материалов. 2007 (7). C. 72-76.
- Литвак Б. Г. Экспертная информация: Методы получения и анализа. – М.: Радио и связь, 1982. – 184 с.
- Стрижов В. В. Уточнение экспертных оценок с помощью измеряемых данных. // Заводская лаборатория. Диагностика материалов. 2006 (7). С.59-64.
- Вуколов Э. А. Основы статистического анализа. Практикум по статистическим методам и исследованиею операций STATISTA и EXCEL / 2-е изд., испр. и доп.: Учеб. пособие. — М.:ФОРУМ, 2008. — 463 с. — ISBN 978-5-91134-231-9.