Статистический анализ данных (курс лекций, К.В.Воронцов)

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(дополнение)
(Анализ временных рядов, Адаптивные методы прогнозирования, Анализ панельных данных)
Строка 24: Строка 24:
* Статистические [[точечная оценка|точечные оценки]] и их свойства: [[несмещённость]], [[состоятельность]], [[эффективность]], [[достаточность]], [[робастность]].
* Статистические [[точечная оценка|точечные оценки]] и их свойства: [[несмещённость]], [[состоятельность]], [[эффективность]], [[достаточность]], [[робастность]].
* [[Интервальная оценка|Интервальные оценки]], понятия [[Доверительный интервал|доверительного интервала]] и [[Коэффициент доверия|коэффициента доверия]]. Доверительное оценивание по вариационному ряду. Доверительные интервалы для среднего и медианы [Лапач, 104].
* [[Интервальная оценка|Интервальные оценки]], понятия [[Доверительный интервал|доверительного интервала]] и [[Коэффициент доверия|коэффициента доверия]]. Доверительное оценивание по вариационному ряду. Доверительные интервалы для среднего и медианы [Лапач, 104].
-
<strike>
 
-
* Метод доверительных интервалов Неймана.
 
-
* Понятия параметрических, непараметрических и робастных методов. Структура прикладной статистики.
 
-
</strike>
 
=== Параметрическая проверка гипотез ===
=== Параметрическая проверка гипотез ===
Строка 78: Строка 74:
* Анализ структуры линейной регрессионной модели. [[Проверка значимости]] (не равенства нулю) коэффициентов линейной регрессионной модели, [[вложенные модели]], критерий Фишера. [[Шаговая регрессия]].
* Анализ структуры линейной регрессионной модели. [[Проверка значимости]] (не равенства нулю) коэффициентов линейной регрессионной модели, [[вложенные модели]], критерий Фишера. [[Шаговая регрессия]].
* Проверка адекватности модели. Выборочный [[коэффициент детерминации]]. [[Дисперсия остатков]].
* Проверка адекватности модели. Выборочный [[коэффициент детерминации]]. [[Дисперсия остатков]].
-
* Проблема [[Мультиколлинеарность|мультиколлинеарности]]. Методы понижения размерности. [[Ридж-регрессия]]. [[Лассо Тибширани]], параметр селективности.
+
* Проблема [[Мультиколлинеарность|мультиколлинеарности]]. Методы понижения размерности: [[ридж-регрессия]], [[лассо Тибширани]], параметр [[Селективность|селективности]].
=== Анализ регрессионных остатков ===
=== Анализ регрессионных остатков ===
Строка 84: Строка 80:
* Непараметрические тесты: [[критерий Уилкоксона-Манна-Уитни]], [[критерий Зигеля-Тьюки]], [[критерий знаков]], [[критерий Вальда-Вольфовица|критерий серий]], [[критерий экстремумов]].
* Непараметрические тесты: [[критерий Уилкоксона-Манна-Уитни]], [[критерий Зигеля-Тьюки]], [[критерий знаков]], [[критерий Вальда-Вольфовица|критерий серий]], [[критерий экстремумов]].
* Проверка нормальности остатков: [[Критерий Шапиро-Уилка]], [[критерий Колмогорова-Смирнова]], [[критерий омега-квадрат]] фон Мизеса, [[критерий хи-квадрат]] Пирсона, критерии асимметрии и эксцесса.
* Проверка нормальности остатков: [[Критерий Шапиро-Уилка]], [[критерий Колмогорова-Смирнова]], [[критерий омега-квадрат]] фон Мизеса, [[критерий хи-квадрат]] Пирсона, критерии асимметрии и эксцесса.
 +
* Тест на корреляцию остатков, [[статистика Дарбина-Уотсона]].
=== Непараметрическая регрессия ===
=== Непараметрическая регрессия ===
* [[Непараметрическая регрессия]]: [[ядерное сглаживание]], формула Надарая-Ватсона. Разложение ошибки на [[Вариация и смещение|вариацию и смещение]]. Выбор ядра и ширины окна. Окна переменной ширины. Доверительный интервал прогнозного значения отклика. Проблема выбросов, [[Алгоритм LOWESS]].
* [[Непараметрическая регрессия]]: [[ядерное сглаживание]], формула Надарая-Ватсона. Разложение ошибки на [[Вариация и смещение|вариацию и смещение]]. Выбор ядра и ширины окна. Окна переменной ширины. Доверительный интервал прогнозного значения отклика. Проблема выбросов, [[Алгоритм LOWESS]].
-
* Совмещение многомерной линейной регрессии и одномерного сглаживания: [[backfitting|метод настройки с возвращениями]] (backfitting). Примеры прикладных задач: анализ стиля управления инвестиционным портфелем, анализ деятельности паевых инвестиционных фондов.
+
* Совмещение многомерной линейной регрессии и одномерного сглаживания: [[backfitting|метод настройки с возвращениями]] (backfitting).
-
 
+
* Примеры прикладных задач: анализ стиля управления инвестиционным портфелем, анализ деятельности паевых инвестиционных фондов.
-
<!---
+
* Регуляризация коэффициентов регрессии, медленно изменяющихся во времени.
-
=== Непараметрическая, нелинейная, устойчивая регрессия ===
+
-
* <strike>[[Нелинейная регрессия]]. Методы Ньютона-Раффсона и Ньютона-Гаусса.</strike>
+
-
* <strike>Проблема выбросов и [[робастная регрессия]]. [[M-оценки]], [[метод наименьших модулей]]. [[L-оценки]], [[винзоризация выборки]] [Вучков].</strike>
+
-
 
+
-
* [[Факторный анализ]] [Айвазян, том 1, 526, 551]: [[метод главных компонент]], геометрическая интерпретация, выбор числа значимых факторов [Кулаичев, 315].
+
-
* Пример прикладной задачи: анализ деятельности паевых инвестиционных фондов. Введение нелинейности в модель регрессии. Регуляризация коэффициентов регрессии, медленно изменяющихся во времени.
+
-
* Гипотеза нормальности и ее нарушение. [[Гетероскедастичность]]. Обобщённый метод наименьших квадратов [Вучков, Айвазян, том 2].
+
-
--->
+
-
 
+
-
=== Анализ временных рядов ===
+
-
* [[Временной ряд]]. [[Стационарность]] и [[эргодичность]].
+
-
* Основные компоненты эконометрических временных рядов: [[тренд]], [[сезонность]], [[шум]]ы, [[циклические колебания]], календарные эффекты. Структурные модели временного ряда [Айвазян, том 2, Лукашин].
+
-
* Прогнозирование временных рядов. Простейшие методы прогнозирования. [[Экспоненциальное сглаживание]], [[модель Брауна]], [[модель Хольта-Уинтерса]], [[модель Тейла-Вейджа]].
+
-
* [[ARIMA|Процесс авторегрессии и проинтегрированного скользящего среднего]] (ARIMA) [Лукашин].
+
=== Анализ рисков. Пробит- и логит-анализ ===
=== Анализ рисков. Пробит- и логит-анализ ===
Строка 110: Строка 93:
* [[Анализ выживаемости]]. [[Функция выживаемости]] и [[функция интенсивности рисков]]. [[Процедура Каплана-Мейера]]. Доверительный интервал выживаемости.
* [[Анализ выживаемости]]. [[Функция выживаемости]] и [[функция интенсивности рисков]]. [[Процедура Каплана-Мейера]]. Доверительный интервал выживаемости.
* Сравнение двух функций выживаемости: [[логранговый критерий]], [[критерий Гехана]].
* Сравнение двух функций выживаемости: [[логранговый критерий]], [[критерий Гехана]].
 +
 +
=== Анализ временных рядов ===
 +
[Лукашин]
 +
* [[Временной ряд]]. Примеры: прогнозирование объёмов грузоперевозок, объёмов продаж, спроса и цен на электроэнергию.
 +
* Основные компоненты эконометрических временных рядов: [[тренд]], [[сезонность]], календарные эффекты. Аддитивная модель временного ряда. Постановка линейной регрессионной задачи и [[Метод наименьших квадратов|МНК]]. Регуляризация сезонного профиля на временных рядах с малым числом периодов.
 +
* [[Автокорреляционная функция]]. [[Коррелограмма]] и её интерпретация. Проверка гипотезы о равенстве нулю автокорреляции.
 +
 +
=== Адаптивные методы прогнозирования ===
 +
[Лукашин]
 +
* [[Экспоненциальное сглаживание|Модель Брауна]] — экспоненциальное сглаживание.
 +
* [[Модель Хольта]] — линейный тренд без сезонности.
 +
* [[Модель Хольта-Уинтерса]] — мультипликативный тренд и сезонность.
 +
* [[Модель Тейла-Вейджа]] — аддитивный тренд и сезонность.
 +
* Анализ адекватности адаптивных моделей, [[скользящий контрольный сигнал]].
 +
* Адаптация параметров адаптации.
 +
* Обнаружение структурных изменений. [[Критерий Чоу]].
 +
* [[Адаптивная селекция моделей прогнозирования]].
 +
* [[Адаптивная композиция моделей прогнозирования]].
 +
 +
=== Анализ панельных данных ===
 +
[Магнус]
 +
* Примеры эконометрических задач: анализ стран, фирм, домашних хозяйств, телезрителей.
 +
* [[Объединённая модель панельных данных]].
 +
* [[Модель панельных данных с фиксированными эффектами]].
 +
* [[Модель панельных данных со случайными эффектами]].
 +
* [[Модель панельных данных с временны́ми эффектами]].
 +
* Модель несвязанных регрессий.
 +
* Проблема выбора модели: F-тест Фишера, тест множителей Лагранжа, тест Хаусмана.
 +
* [[Ротационная панель]].
 +
 +
<!---
 +
* Метод доверительных интервалов Неймана.
 +
* Понятия параметрических, непараметрических и робастных методов. Структура прикладной статистики.
 +
* [[Случайные блуждания]], [[задача о разорении игрока]].
* [[Случайные блуждания]], [[задача о разорении игрока]].
 +
 +
=== Нелинейная, устойчивая регрессия ===
 +
* [[Нелинейная регрессия]]. Методы Ньютона-Раффсона и Ньютона-Гаусса.
 +
* Проблема выбросов и [[робастная регрессия]]. [[M-оценки]], [[метод наименьших модулей]]. [[L-оценки]], [[винзоризация выборки]] [Вучков].
 +
 +
=== Факторный анализ ===
 +
* [[Факторный анализ]] [Айвазян, том 1, 526, 551]: [[метод главных компонент]], геометрическая интерпретация, выбор числа значимых факторов [Кулаичев, 315].
 +
* Пример прикладной задачи: анализ деятельности паевых инвестиционных фондов. Введение нелинейности в модель регрессии.
 +
* Гипотеза нормальности и ее нарушение. [[Гетероскедастичность]]. Обобщённый метод наименьших квадратов [Вучков, Айвазян, том 2].
=== Выборочный анализ ===
=== Выборочный анализ ===
Строка 121: Строка 147:
* [[Экспертные оценки]] [Литвак, Лапач, 353]. [[Матрица парных сравнений]]. [[Экспертно-статистический метод]] [Айвазян, том 2]. [[Согласование экспертных оценок]] [Стрижов, 2006].
* [[Экспертные оценки]] [Литвак, Лапач, 353]. [[Матрица парных сравнений]]. [[Экспертно-статистический метод]] [Айвазян, том 2]. [[Согласование экспертных оценок]] [Стрижов, 2006].
-
=== Панельные исследования ===
+
* [[ARIMA|Процесс авторегрессии и проинтегрированного скользящего среднего]] (ARIMA).
 +
* Вычисление доверительных интервалов. [[Прогнозирование плотности]].
 +
 
 +
--->
== Литература ==
== Литература ==
-
#''Лапач С. Н. , Чубенко А. В., Бабич П. Н.'' Статистика в науке и бизнесе. — Киев: Морион, 2002.
+
# ''Лапач С. Н. , Чубенко А. В., Бабич П. Н.'' Статистика в науке и бизнесе. — Киев: Морион, 2002.
-
#''Орлов А. И.'' Эконометрика. — М.: Экзамен, 2003.
+
# ''Лагутин М. Б.'' Наглядная математическая статистика. В двух томах. — М.: П-центр, 2003.
-
#''Лагутин М. Б.'' Наглядная математическая статистика. В двух томах. — М.: П-центр, 2003.
+
# ''Лукашин Ю. П.'' Адаптивные методы краткосрочного прогнозирования временных рядов. — М.: Финансы и статистика, 2003.
-
#''Кобзарь А. И.'' Прикладная математическая статистика. — М.: Физматлит, 2006.
+
# ''Магнус Я. Р., Катышев П. К., Пересецкий А. А.'' Эконометрика. Начальный курс: Учеб. — 7-е изд., испр. — М.: Дело, 2005.
-
#''Айвазян С. А., Мхитарян В. С.'' Прикладная статистика. Том 1. Теория вероятностей и прикладная статистика. — М.: Юнити, 2001.
+
# ''Кобзарь А. И.'' Прикладная математическая статистика. — М.: Физматлит, 2006.
-
#''Айвазян С. А.'' Прикладная статистика. Том 2. Основы эконометрики. — М.: Юнити, 2001.
+
# ''Орлов А. И.'' Эконометрика. — М.: Экзамен, 2003.
-
#''Кулаичев А. П.'' Методы и средства комплексного анализа данных. — М.: Форум–Инфра-М, 2006.
+
# ''Айвазян С. А., Мхитарян В. С.'' Прикладная статистика. Том 1. Теория вероятностей и прикладная статистика. — М.: Юнити, 2001.
-
#''Тюрин Ю. Н., Макаров А. А.'' Анализ данных на компьютере. — М.: Инфра-М, 2003.
+
# ''Айвазян С. А.'' Прикладная статистика. Том 2. Основы эконометрики. — М.: Юнити, 2001.
-
#''Вучков И., Бояджиева А., Солаков Е.'' Прикладной линейный регрессионный анализ. — М.: Финансы и статистика, 1987.
+
# ''Кулаичев А. П.'' Методы и средства комплексного анализа данных. — М.: Форум–Инфра-М, 2006.
-
#''Лукашин Ю. П.'' Адаптивные методы краткосрочного прогнозирования временных рядов. — М.: Финансы и статистика, 2003.
+
# ''Тюрин Ю. Н., Макаров А. А.'' Анализ данных на компьютере. — М.: Инфра-М, 2003.
-
#''Friedman R., Hastie T., Tibshirani J.'' The elements of statistical learning. – Springer, 2001.
+
# ''Вучков И., Бояджиева А., Солаков Е.'' Прикладной линейный регрессионный анализ. — М.: Финансы и статистика, 1987.
 +
# {{Публикация:Hastie 2001 The Elements of Statistical Learning}}
 +
<!---
#''Strijov, V., Shakin, V.'' [http://strijov.com/papers/10-v_strijov.pdf Index construction: the expert-statistical method]. // Environmental research, engineering and management 2003. No.4 (26), P.51-55.
#''Strijov, V., Shakin, V.'' [http://strijov.com/papers/10-v_strijov.pdf Index construction: the expert-statistical method]. // Environmental research, engineering and management 2003. No.4 (26), P.51-55.
#''Стрижов В. В., Казакова Т. В.'' [http://strijov.com/papers/stable_idx4zavlab_after_recenz.pdf Устойчивые интегральные индикаторы с выбором опорного множества описаний]. // Заводская лаборатория. Диагностика материалов. 2007 (7). C. 72-76.
#''Стрижов В. В., Казакова Т. В.'' [http://strijov.com/papers/stable_idx4zavlab_after_recenz.pdf Устойчивые интегральные индикаторы с выбором опорного множества описаний]. // Заводская лаборатория. Диагностика материалов. 2007 (7). C. 72-76.
#''Литвак Б. Г.'' Экспертная информация: Методы получения и анализа. – М.: Радио и связь, 1982. – 184 с.
#''Литвак Б. Г.'' Экспертная информация: Методы получения и анализа. – М.: Радио и связь, 1982. – 184 с.
#''Стрижов В. В.'' [http://strijov.com/papers/strijov06precise.pdf Уточнение экспертных оценок с помощью измеряемых данных]. // Заводская лаборатория. Диагностика материалов. 2006 (7). С.59-64.
#''Стрижов В. В.'' [http://strijov.com/papers/strijov06precise.pdf Уточнение экспертных оценок с помощью измеряемых данных]. // Заводская лаборатория. Диагностика материалов. 2006 (7). С.59-64.
-
# ''Вуколов Э. А.'' Основы статистического анализа. Практикум по статистическим методам и исследованиею операций STATISTA и EXCEL / 2-е изд., испр. и доп.: Учеб. пособие. — М.:ФОРУМ, 2008. — 463 с. — ISBN 978-5-91134-231-9.
+
--->
== Ссылки ==
== Ссылки ==

Версия 23:35, 17 декабря 2008

Содержание

Курс знакомит студентов с основными задачами и методами прикладной статистики.

Цели курса — связать теорию и практику, научить студентов «видеть» статистические задачи в различных предметных областях и правильно применять методы прикладной статистики, показать на практических примерах возможности и ограничения статистических методов. Курс имеет скорее методологическую, чем математическую направленность и не содержит доказательств теорем.

Каждый метод описывается по единой схеме:

  • постановка задачи;
  • примеры прикладных задач из области экономики, социологии, производства, медицины;
  • базовые предположения и границы применимости;
  • описание метода (для методов проверки статистических гипотез: нулевая гипотеза и альтернативы, статистика, её функция распределения с эскизом графика, критическая область);
  • достоинства, недостатки, ограничения, «подводные камни»;
  • сравнение с другими методами.

Курс читается студентам 5 курса кафедры Математические методы прогнозирования ВМиК МГУ, начиная с 2007 года. Предполагается, что студенты уже прослушали курсы теории вероятностей и математической статистики, знакомы с элементами дискриминантного, факторного и кластерного анализа (по кафедральному курсу «Математические методы распознавания образов»), регрессионного анализа и анализа временных рядов (по кафедральному курсу ММП).

Программа курса

Введение

Обзор необходимых сведений из теории вероятностей и математической статистики.

Параметрическая проверка гипотез

Непараметрическая проверка гипотез

Дисперсионный анализ (ANOVA)

[Лапач, 193, Кулаичев, 170].

Корреляционный анализ

[Лапач, 174].

Анализ таблиц сопряженности (кросстабуляции)

[Лапач, 204, 316, Лагутин, Т2:174, Кулаичев, 162].

Линейный регрессионный анализ

Анализ регрессионных моделей

Анализ регрессионных остатков

Непараметрическая регрессия

  • Непараметрическая регрессия: ядерное сглаживание, формула Надарая-Ватсона. Разложение ошибки на вариацию и смещение. Выбор ядра и ширины окна. Окна переменной ширины. Доверительный интервал прогнозного значения отклика. Проблема выбросов, Алгоритм LOWESS.
  • Совмещение многомерной линейной регрессии и одномерного сглаживания: метод настройки с возвращениями (backfitting).
  • Примеры прикладных задач: анализ стиля управления инвестиционным портфелем, анализ деятельности паевых инвестиционных фондов.
  • Регуляризация коэффициентов регрессии, медленно изменяющихся во времени.

Анализ рисков. Пробит- и логит-анализ

[Лапач, 387].

Анализ временных рядов

[Лукашин]

  • Временной ряд. Примеры: прогнозирование объёмов грузоперевозок, объёмов продаж, спроса и цен на электроэнергию.
  • Основные компоненты эконометрических временных рядов: тренд, сезонность, календарные эффекты. Аддитивная модель временного ряда. Постановка линейной регрессионной задачи и МНК. Регуляризация сезонного профиля на временных рядах с малым числом периодов.
  • Автокорреляционная функция. Коррелограмма и её интерпретация. Проверка гипотезы о равенстве нулю автокорреляции.

Адаптивные методы прогнозирования

[Лукашин]

Анализ панельных данных

[Магнус]


Литература

  1. Лапач С. Н. , Чубенко А. В., Бабич П. Н. Статистика в науке и бизнесе. — Киев: Морион, 2002.
  2. Лагутин М. Б. Наглядная математическая статистика. В двух томах. — М.: П-центр, 2003.
  3. Лукашин Ю. П. Адаптивные методы краткосрочного прогнозирования временных рядов. — М.: Финансы и статистика, 2003.
  4. Магнус Я. Р., Катышев П. К., Пересецкий А. А. Эконометрика. Начальный курс: Учеб. — 7-е изд., испр. — М.: Дело, 2005.
  5. Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006.
  6. Орлов А. И. Эконометрика. — М.: Экзамен, 2003.
  7. Айвазян С. А., Мхитарян В. С. Прикладная статистика. Том 1. Теория вероятностей и прикладная статистика. — М.: Юнити, 2001.
  8. Айвазян С. А. Прикладная статистика. Том 2. Основы эконометрики. — М.: Юнити, 2001.
  9. Кулаичев А. П. Методы и средства комплексного анализа данных. — М.: Форум–Инфра-М, 2006.
  10. Тюрин Ю. Н., Макаров А. А. Анализ данных на компьютере. — М.: Инфра-М, 2003.
  11. Вучков И., Бояджиева А., Солаков Е. Прикладной линейный регрессионный анализ. — М.: Финансы и статистика, 1987.
  12. Hastie, T., Tibshirani, R., Friedman, J. The Elements of Statistical Learning, 2nd edition. — Springer, 2009. — 533 p.  (подробнее)

Ссылки

Подстраницы

Личные инструменты