Статистический анализ данных (курс лекций, К.В.Воронцов)

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
м (Подстраницы)
Строка 87: Строка 87:
* Анализ структуры линейной регрессионной модели. [[Значимость коэффициентов линейной регрессии]] (проверка равенства коэффициентов нулю), [[вложенные модели линейной регрессии]], [[критерий Фишера]]. [[Шаговая регрессия]].
* Анализ структуры линейной регрессионной модели. [[Значимость коэффициентов линейной регрессии]] (проверка равенства коэффициентов нулю), [[вложенные модели линейной регрессии]], [[критерий Фишера]]. [[Шаговая регрессия]].
* Проверка адекватности модели. Выборочный [[коэффициент детерминации]]. [[Дисперсия остатков]].
* Проверка адекватности модели. Выборочный [[коэффициент детерминации]]. [[Дисперсия остатков]].
-
* Проблема [[Мультиколлинеарность|мультиколлинеарности]]. Методы понижения размерности: [[ридж-регрессия]], [[лассо Тибширани]], параметр [[Селективность|селективности]].
+
* Проблема [[Мультиколлинеарность|мультиколлинеарности]]. Методы понижения размерности: [[ридж-регрессия]], [[лассо Тибширани]]. Выбор параметра регуляризации.
=== Анализ регрессионных остатков ===
=== Анализ регрессионных остатков ===
Строка 131: Строка 131:
* [[Адаптивная композиция моделей прогнозирования]].
* [[Адаптивная композиция моделей прогнозирования]].
 +
<!---
=== Анализ панельных данных ===
=== Анализ панельных данных ===
[Магнус]
[Магнус]
Строка 141: Строка 142:
* Проблема выбора модели: F-тест Фишера, [[критерий множителей Лагранжа]], [[критерий Хаусмана]].
* Проблема выбора модели: F-тест Фишера, [[критерий множителей Лагранжа]], [[критерий Хаусмана]].
* [[Ротационная панель]].
* [[Ротационная панель]].
 +
--->
=== Выборочный анализ ===
=== Выборочный анализ ===
Строка 167: Строка 169:
=== Факторный анализ ===
=== Факторный анализ ===
* [[Факторный анализ]] [Айвазян, том 1, 526, 551]: [[метод главных компонент]], геометрическая интерпретация, выбор числа значимых факторов [Кулаичев, 315].
* [[Факторный анализ]] [Айвазян, том 1, 526, 551]: [[метод главных компонент]], геометрическая интерпретация, выбор числа значимых факторов [Кулаичев, 315].
-
* Пример прикладной задачи: анализ деятельности паевых инвестиционных фондов. Введение нелинейности в модель регрессии.
 
* Гипотеза нормальности и ее нарушение. [[Гетероскедастичность]]. Обобщённый метод наименьших квадратов [Вучков, Айвазян, том 2].
* Гипотеза нормальности и ее нарушение. [[Гетероскедастичность]]. Обобщённый метод наименьших квадратов [Вучков, Айвазян, том 2].

Версия 13:39, 5 января 2012

Содержание

Курс знакомит студентов с основными задачами и методами прикладной статистики.

Цели курса — связать теорию и практику, научить студентов «видеть» статистические задачи в различных предметных областях и правильно применять методы прикладной статистики, показать на практических примерах возможности и ограничения статистических методов. Курс имеет скорее методологическую, чем математическую направленность и не содержит доказательств теорем.

Каждый метод описывается по единой схеме:

  • постановка задачи;
  • примеры прикладных задач из области экономики, социологии, производства, медицины;
  • базовые предположения и границы применимости;
  • описание метода (для методов проверки статистических гипотез: нулевая гипотеза и альтернативы, статистика, её функция распределения с эскизом графика, критическая область);
  • достоинства, недостатки, ограничения, «подводные камни»;
  • сравнение с другими методами.

Курс читается студентам 5 курса кафедры Математические методы прогнозирования ВМиК МГУ, начиная с 2007 года. Предполагается, что студенты уже прослушали курсы теории вероятностей и математической статистики, знакомы с элементами дискриминантного, факторного и кластерного анализа (по кафедральному курсу «Математические методы распознавания образов»), регрессионного анализа и анализа временных рядов (по кафедральному курсу ММП).

Программа курса

Введение

Обзор необходимых сведений из теории вероятностей и математической статистики.

Материалы семинара по теме

Параметрическая проверка гипотез

Материалы семинара по теме

Непараметрическая проверка гипотез

Материалы семинара по теме

Анализ таблиц сопряженности (кросстабуляции)

[Лапач, 204, 316, Лагутин, Т2:174, Кулаичев, 162].

Материалы семинара по теме

Дисперсионный анализ (ANOVA)

[Лапач, 193, Кулаичев, 170].

Материалы семинара по теме

Корреляционный анализ

[Лапач, 174].

Материалы семинара по теме

Линейный регрессионный анализ

Анализ регрессионных моделей

Анализ регрессионных остатков

Материалы семинаров по темам: часть 1, часть 2.

Непараметрическая регрессия

  • Непараметрическая регрессия: ядерное сглаживание, формула Надарая-Ватсона. Разложение ошибки на вариацию и смещение. Выбор ядра и ширины окна. Окна переменной ширины. Доверительный интервал прогнозного значения отклика. Проблема выбросов, Алгоритм LOWESS.
  • Совмещение многомерной линейной регрессии и одномерного сглаживания: метод настройки с возвращениями (backfitting).
  • Примеры прикладных задач: анализ стиля управления инвестиционным портфелем, анализ деятельности паевых инвестиционных фондов.
  • Регуляризация коэффициентов регрессии, медленно изменяющихся во времени.

Анализ рисков. Пробит- и логит-анализ

[Лапач, 387].

Материалы семинара по логистической регрессии

Анализ временных рядов

[Лукашин]

Материалы семинаров по теме

Адаптивные методы прогнозирования

[Лукашин]


Выборочный анализ

Множественная проверка гипотез

  • Множественная проверка гипотез. Примеры задач. Меры числа ошибок первого рода.
  • Поправка Бонферрони.
  • Нисходящие процедуры множественной проверки, метод Холма. Точные верхняя и нижняя грани для достигаемых уровней значимости нисходящей процедуры.
  • Процедуры множественной проверки гипотез при наличии дополнительной информации о признаках: независимость, положительная регрессионная зависимость, subset pivotality.

Материалы семинара по теме


Литература

  1. Лапач С. Н. , Чубенко А. В., Бабич П. Н. Статистика в науке и бизнесе. — Киев: Морион, 2002.
  2. Лагутин М. Б. Наглядная математическая статистика. В двух томах. — М.: П-центр, 2003.
  3. Лукашин Ю. П. Адаптивные методы краткосрочного прогнозирования временных рядов. — М.: Финансы и статистика, 2003.
  4. Магнус Я. Р., Катышев П. К., Пересецкий А. А. Эконометрика. Начальный курс: Учеб. — 7-е изд., испр. — М.: Дело, 2005.
  5. Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006.
  6. Орлов А. И. Эконометрика. — М.: Экзамен, 2003.
  7. Айвазян С. А., Мхитарян В. С. Прикладная статистика. Том 1. Теория вероятностей и прикладная статистика. — М.: Юнити, 2001.
  8. Айвазян С. А. Прикладная статистика. Том 2. Основы эконометрики. — М.: Юнити, 2001.
  9. Кулаичев А. П. Методы и средства комплексного анализа данных. — М.: Форум–Инфра-М, 2006.
  10. Тюрин Ю. Н., Макаров А. А. Анализ данных на компьютере. — М.: Инфра-М, 2003.
  11. Вучков И., Бояджиева А., Солаков Е. Прикладной линейный регрессионный анализ. — М.: Финансы и статистика, 1987.
  12. Hastie, T., Tibshirani, R., Friedman, J. The Elements of Statistical Learning, 2nd edition. — Springer, 2009. — 533 p.  (подробнее)

Ссылки

Подстраницы

Личные инструменты