Статистический анализ данных (курс лекций, К.В.Воронцов)

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
м (Множественная проверка гипотез)
м
Строка 93: Строка 93:
[[Media:S6.pdf‎‎|Материалы занятия]]
[[Media:S6.pdf‎‎|Материалы занятия]]
-
 
-
=== Последовательный анализ Вальда ===
 
-
[Вальд]
 
-
* Применение в задачах проверки гипотез о значениях параметра биномиального распределения: сравнение значения с заданным, сравнение двух значений.
 
-
* Применение в задачах проверки гипотез о значениях параметров нормального распределения: сравнение значения среднего с заданными (симметричный и несимметричный варианты), сравнение значения дисперсии с заданным.
 
-
 
-
[[Media:Lec5.pdf‎‎|Конспект лекции]]
 
=== Линейный регрессионный анализ ===
=== Линейный регрессионный анализ ===
-
[Дрейпер]
+
[Дрейпер, Wooldridge]
* [[Многомерная линейная регрессия]]. Примеры прикладных задач. [[Метод наименьших квадратов]].
* [[Многомерная линейная регрессия]]. Примеры прикладных задач. [[Метод наименьших квадратов]].
-
* МНК-решение и его запись через [[сингулярное разложение]]. [[Остаточная сумма квадратов]] (RSS).
+
* МНК-решение и его запись через [[сингулярное разложение]]. Несимметричность решения задачи одномерной регрессии относительно признака и отклика, связь с коэффициентом корреляции. [[Остаточная сумма квадратов]] (RSS). [[Коэффициент детерминации]]
-
* Основные предположения [[многомерная линейная регрессия|многомерной линейной регрессии]]. Статистические свойства МНК-оценок без предположения нормальности.
+
* Предположения Гаусса-Маркова. Статистические свойства МНК-оценок в отсутствие предположения нормальности.
-
* Статистические свойства МНК-оценок при предположении нормальности. Доверительные интервалы для дисперсии шума, коэффициентов регрессии, прогнозного значения отклика.
+
* Факторы, влияющие на дисперсию оценок коэффициентов модели. Мультиколлинеарность.
-
 
+
* Кодирование нечисловых признаков, фиктивные переменные. Dummy- и deviation-кодирование.
-
=== Анализ регрессионных моделей ===
+
* Статистические свойства МНК-оценок при добавлении предположения нормальности. Доверительные интервалы для дисперсии шума, коэффициентов регрессии, прогнозируемого значения отклика, доверительная лента для прогнозируемого значения отклика при всех значениях признака.
-
* Анализ структуры линейной регрессионной модели. [[Значимость коэффициентов линейной регрессии]] (проверка равенства коэффициентов нулю), [[вложенные модели линейной регрессии]], [[критерий Фишера]]. [[Шаговая регрессия]].
+
* Анализ структуры линейной регрессионной модели. [[Значимость коэффициентов линейной регрессии]]: проверка равенства коэффициентов нулю и константе, [[вложенные модели линейной регрессии]], [[критерий Фишера]], запись критерия Фишера через коэффициент детерминации. Связь между критериями Фишера и Стьюдента. [[Пошаговая регрессия]]. Эксперимент Фридмана.
-
* Проверка адекватности модели. Выборочный [[коэффициент детерминации]]. [[Дисперсия остатков]].
+
* [[Анализ регрессионных остатков]]: визуальный анализ, проверка гипотез несмещённости, гомоскедастичности (критерии Бройша-Пагана) или некоррелированности остатков с признаками, их квадратами и попарными интеракциями (критерии Уайта и Вулдриджа), некоррелированности (критерии [[критерий Вальда-Вольфовица|Вальда-Вольфовица]] и [[статистика Дарбина-Уотсона|Дарбина-Уотсона]]), нормальности.
 +
* Метод Бокса-Кокса для преобразования отклика. Доверительный интервал для параметра метода.
 +
* Сравнение невложенных моделей: приведённый коэффициент детерминации, критерий Давидсона-Маккиннона.
 +
* Проверка общей линейной гипотезы.
 +
* Обработка пропусков и выбросов. Расстояние Кука.
* Проблема [[Мультиколлинеарность|мультиколлинеарности]]. Методы понижения размерности: [[ридж-регрессия]], [[лассо Тибширани]]. Выбор параметра регуляризации.
* Проблема [[Мультиколлинеарность|мультиколлинеарности]]. Методы понижения размерности: [[ридж-регрессия]], [[лассо Тибширани]]. Выбор параметра регуляризации.
 +
* Нелинейная регрессия. Построение совместной доверительной области для параметров модели. Приближённая проверка адекватности модели по чистой ошибке.
-
=== Анализ регрессионных остатков ===
+
Материалы занятий: [[Media:S7.pdf‎‎|часть 1]], [[Media:S8.pdf‎‎|часть 2]], [[Media:reg_example.pdf‎‎|пример решения задачи]].
-
* [[Анализ регрессионных остатков]]: визуальный анализ.
+
-
* Непараметрические тесты: [[критерий Уилкоксона-Манна-Уитни]], [[критерий Зигеля-Тьюки]], [[критерий знаков]], [[критерий Вальда-Вольфовица|критерий серий]], [[критерий экстремумов]].
+
-
* Проверка нормальности остатков: [[Критерий Шапиро-Уилка]], [[критерий Колмогорова-Смирнова]], [[критерий омега-квадрат]] фон Мизеса, [[критерий хи-квадрат]] Пирсона, критерии асимметрии и эксцесса.
+
-
* Тест на корреляцию остатков, [[статистика Дарбина-Уотсона]].
+
-
Материалы семинаров по темам: [[Media:Sem7.pdf‎‎|часть 1]], [[Media:Sem8.pdf‎‎|часть 2]].
+
=== Логистическая регрессия ===
 +
[Hosmer]
 +
* Постановка задачи [[Логистическая_регрессия|логистической регрессии]], повторяемый эксперимент с фиксированными уровнями фактора, неповторяемый эксперимент со случайными уровнями фактора. Логит, его интерпретация. Интерпретация коэффициентов логистической регрессии (бинарный, категориальный, количественный признак).
 +
* Оценка параметров модели методом максимального правдоподобия. Возможные причины отсутствия сходимости.
 +
* Анализ модели логистической регрессии: оценка значимости коэффициентов (критерий Вальда), проверка адекватности модели (критерии хи-квадрат, D-квадрат, Хосмера-Лемешева, аналог коэффициента детерминации), сравнение вложенных моделей (D-критерий), построение доверительных интервалов для вероятности события при заданном значении признаков, остатки Пирсона, признаки мультиколлинеарности.
 +
* Классификация на основе логистической регрессии: чувствительность, специфичность, выбор порога.
 +
<!---
 +
[[Media:Sem9.pdf‎‎|Материалы семинара по логистической регрессии]]--->
=== Непараметрическая регрессия ===
=== Непараметрическая регрессия ===
Строка 131: Строка 132:
* [[Пробит-анализ]] и [[логит-анализ]]. Приложения в токсикологии, страховании, эконометрике (оценивание спроса). Оценивание апостериорных вероятностей в задачах классификации. [[Анализ кредитных рисков]]: оценивание вероятности дефолта, имитационное моделирование.
* [[Пробит-анализ]] и [[логит-анализ]]. Приложения в токсикологии, страховании, эконометрике (оценивание спроса). Оценивание апостериорных вероятностей в задачах классификации. [[Анализ кредитных рисков]]: оценивание вероятности дефолта, имитационное моделирование.
--->
--->
-
=== Логистическая регрессия ===
 
-
[Hosmer]
 
-
* Постановка задачи [[Логистическая_регрессия|логистической регрессии]]. Логит, его интерпретация. Интерпретация коэффициентов логистической регрессии.
 
-
* Анализ модели логистической регрессии: оценка значимости коэффициентов, проверка адекватности модели, анализ остатков, признаки мультиколлинеарности.
 
-
* Классификация на основе логистической регрессии: чувствительность, специфичность, выбор порога.
 
-
 
-
[[Media:Sem9.pdf‎‎|Материалы семинара по логистической регрессии]]
 
=== Анализ временных рядов ===
=== Анализ временных рядов ===
Строка 158: Строка 152:
* [[Адаптивная селекция моделей прогнозирования]].
* [[Адаптивная селекция моделей прогнозирования]].
* [[Адаптивная композиция моделей прогнозирования]].
* [[Адаптивная композиция моделей прогнозирования]].
 +
 +
=== Последовательный анализ Вальда ===
 +
[Вальд]
 +
* Применение в задачах проверки гипотез о значениях параметра биномиального распределения: сравнение значения с заданным, сравнение двух значений.
 +
* Применение в задачах проверки гипотез о значениях параметров нормального распределения: сравнение значения среднего с заданными (симметричный и несимметричный варианты), сравнение значения дисперсии с заданным.
 +
 +
[[Media:Lec5.pdf‎‎|Конспект лекции]]
=== Анализ выживаемости ===
=== Анализ выживаемости ===
Строка 211: Строка 212:
# ''Айвазян С. А., Мхитарян В. С.'' Прикладная статистика. Том 1. Теория вероятностей и прикладная статистика. — М.: Юнити, 2001.
# ''Айвазян С. А., Мхитарян В. С.'' Прикладная статистика. Том 1. Теория вероятностей и прикладная статистика. — М.: Юнити, 2001.
# ''Айвазян С. А.'' Прикладная статистика. Том 2. Основы эконометрики. — М.: Юнити, 2001.
# ''Айвазян С. А.'' Прикладная статистика. Том 2. Основы эконометрики. — М.: Юнити, 2001.
-
# ''Вучков И., Бояджиева А., Солаков Е.'' Прикладной линейный регрессионный анализ. М.: Финансы и статистика, 1987.
+
# ''Вучков И., Бояджиева А., Солаков Е.'' Прикладной линейный регрессионный анализ. — М.: Финансы и статистика, 1987.
# {{Публикация:Hastie 2001 The Elements of Statistical Learning}}
# {{Публикация:Hastie 2001 The Elements of Statistical Learning}}
# ''Kanji G. K.'' 100 statistical tests. — London: Thousand Oaks: New Dehli: SAGE Publications, 2006.
# ''Kanji G. K.'' 100 statistical tests. — London: Thousand Oaks: New Dehli: SAGE Publications, 2006.
# ''Good P.'' Permutation, Parametric and Bootstrap Tests of Hypotheses: A Practical Guide to Resampling Methods for Testing Hypotheses. — New York: Springer, 2005.
# ''Good P.'' Permutation, Parametric and Bootstrap Tests of Hypotheses: A Practical Guide to Resampling Methods for Testing Hypotheses. — New York: Springer, 2005.
-
# ''Дрейпер Н. Р., Смит Г.'' Прикладной регрессионный анализ. М.: Издательский дом "Вильямс", 2007.
+
# ''Дрейпер Н. Р., Смит Г.'' Прикладной регрессионный анализ. М.: Издательский дом "Вильямс", 2007.
-
# ''Hosmer D. W., Lemeshow S.'' Applied Logistic Regression. - New York: John Wiley & Sons, 2000.
+
# ''Wooldridge J.'' Introductory Econometrics: A Modern Approach. — Mason: South-Western Cengage Learning, 2009.
 +
# ''Hosmer D. W., Lemeshow S.'' Applied Logistic Regression. New York: John Wiley & Sons, 2000.
# ''Вальд А.'' Последовательный анализ. - М.: Физматлит, 1960.
# ''Вальд А.'' Последовательный анализ. - М.: Физматлит, 1960.

Версия 06:00, 16 апреля 2013

Содержание

Курс знакомит студентов с основными задачами и методами прикладной статистики.

Цели курса — связать теорию и практику, научить студентов «видеть» статистические задачи в различных предметных областях и правильно применять методы прикладной статистики, показать на практических примерах возможности и ограничения статистических методов. Курс имеет скорее методологическую, чем математическую направленность и не содержит доказательств теорем.

Каждый метод описывается по единой схеме:

  • постановка задачи;
  • примеры прикладных задач из области экономики, социологии, производства, медицины;
  • базовые предположения и границы применимости;
  • описание метода (для методов проверки статистических гипотез: нулевая гипотеза и альтернативы, статистика, её функция распределения с эскизом графика, критическая область);
  • достоинства, недостатки, ограничения, «подводные камни»;
  • сравнение с другими методами.

Курс читается студентам 5 курса кафедры Математические методы прогнозирования ВМиК МГУ, начиная с 2007 года. Предполагается, что студенты уже прослушали курсы теории вероятностей и математической статистики, знакомы с элементами дискриминантного, факторного и кластерного анализа (по кафедральному курсу «Математические методы распознавания образов»), регрессионного анализа и анализа временных рядов (по кафедральному курсу ММП).

Программа курса

Введение

Обзор необходимых сведений из теории вероятностей и математической статистики.

Материалы занятия

Параметрическая проверка гипотез

[Kanji]

Материалы занятия

Непараметрическая проверка гипотез

[Kanji, Good]

Материалы занятия

Дисперсионный анализ (ANOVA)

[Лапач, 193].

Материалы занятия

Корреляционный анализ

[Лапач, 174, 204, 316, Лагутин, Т2:174].

Материалы занятия

Множественная проверка гипотез

  • Множественная проверка гипотез. Примеры задач. Меры числа ошибок первого рода.
  • FWER, поправка Бонферрони.
  • Нисходящие процедуры множественной проверки: общий вид, метод Холма.
  • Процедуры множественной проверки гипотез при наличии дополнительной информации о признаках: независимость, положительная регрессионная зависимость, subset pivotality.
  • FDR, методы Бенджамини, двухэтапные модификации.

Материалы занятия

Линейный регрессионный анализ

[Дрейпер, Wooldridge]

  • Многомерная линейная регрессия. Примеры прикладных задач. Метод наименьших квадратов.
  • МНК-решение и его запись через сингулярное разложение. Несимметричность решения задачи одномерной регрессии относительно признака и отклика, связь с коэффициентом корреляции. Остаточная сумма квадратов (RSS). Коэффициент детерминации
  • Предположения Гаусса-Маркова. Статистические свойства МНК-оценок в отсутствие предположения нормальности.
  • Факторы, влияющие на дисперсию оценок коэффициентов модели. Мультиколлинеарность.
  • Кодирование нечисловых признаков, фиктивные переменные. Dummy- и deviation-кодирование.
  • Статистические свойства МНК-оценок при добавлении предположения нормальности. Доверительные интервалы для дисперсии шума, коэффициентов регрессии, прогнозируемого значения отклика, доверительная лента для прогнозируемого значения отклика при всех значениях признака.
  • Анализ структуры линейной регрессионной модели. Значимость коэффициентов линейной регрессии: проверка равенства коэффициентов нулю и константе, вложенные модели линейной регрессии, критерий Фишера, запись критерия Фишера через коэффициент детерминации. Связь между критериями Фишера и Стьюдента. Пошаговая регрессия. Эксперимент Фридмана.
  • Анализ регрессионных остатков: визуальный анализ, проверка гипотез несмещённости, гомоскедастичности (критерии Бройша-Пагана) или некоррелированности остатков с признаками, их квадратами и попарными интеракциями (критерии Уайта и Вулдриджа), некоррелированности (критерии Вальда-Вольфовица и Дарбина-Уотсона), нормальности.
  • Метод Бокса-Кокса для преобразования отклика. Доверительный интервал для параметра метода.
  • Сравнение невложенных моделей: приведённый коэффициент детерминации, критерий Давидсона-Маккиннона.
  • Проверка общей линейной гипотезы.
  • Обработка пропусков и выбросов. Расстояние Кука.
  • Проблема мультиколлинеарности. Методы понижения размерности: ридж-регрессия, лассо Тибширани. Выбор параметра регуляризации.
  • Нелинейная регрессия. Построение совместной доверительной области для параметров модели. Приближённая проверка адекватности модели по чистой ошибке.

Материалы занятий: часть 1, часть 2, пример решения задачи.

Логистическая регрессия

[Hosmer]

  • Постановка задачи логистической регрессии, повторяемый эксперимент с фиксированными уровнями фактора, неповторяемый эксперимент со случайными уровнями фактора. Логит, его интерпретация. Интерпретация коэффициентов логистической регрессии (бинарный, категориальный, количественный признак).
  • Оценка параметров модели методом максимального правдоподобия. Возможные причины отсутствия сходимости.
  • Анализ модели логистической регрессии: оценка значимости коэффициентов (критерий Вальда), проверка адекватности модели (критерии хи-квадрат, D-квадрат, Хосмера-Лемешева, аналог коэффициента детерминации), сравнение вложенных моделей (D-критерий), построение доверительных интервалов для вероятности события при заданном значении признаков, остатки Пирсона, признаки мультиколлинеарности.
  • Классификация на основе логистической регрессии: чувствительность, специфичность, выбор порога.

Непараметрическая регрессия

  • Непараметрическая регрессия: ядерное сглаживание, формула Надарая-Ватсона. Разложение ошибки на вариацию и смещение. Выбор ядра и ширины окна. Окна переменной ширины. Доверительный интервал прогнозного значения отклика. Проблема выбросов, Алгоритм LOWESS.
  • Совмещение многомерной линейной регрессии и одномерного сглаживания: метод настройки с возвращениями (backfitting).
  • Примеры прикладных задач: анализ стиля управления инвестиционным портфелем, анализ деятельности паевых инвестиционных фондов.
  • Регуляризация коэффициентов регрессии, медленно изменяющихся во времени.

Анализ временных рядов

[Лукашин]

Материалы семинара по теме

Адаптивные методы прогнозирования

[Лукашин]

Последовательный анализ Вальда

[Вальд]

  • Применение в задачах проверки гипотез о значениях параметра биномиального распределения: сравнение значения с заданным, сравнение двух значений.
  • Применение в задачах проверки гипотез о значениях параметров нормального распределения: сравнение значения среднего с заданными (симметричный и несимметричный варианты), сравнение значения дисперсии с заданным.

Конспект лекции

Анализ выживаемости

Анализ панельных данных

[Магнус]


Литература

  1. Лапач С. Н. , Чубенко А. В., Бабич П. Н. Статистика в науке и бизнесе. — Киев: Морион, 2002.
  2. Лагутин М. Б. Наглядная математическая статистика. В двух томах. — М.: П-центр, 2003.
  3. Лукашин Ю. П. Адаптивные методы краткосрочного прогнозирования временных рядов. — М.: Финансы и статистика, 2003.
  4. Магнус Я. Р., Катышев П. К., Пересецкий А. А. Эконометрика. Начальный курс: Учеб. — 7-е изд., испр. — М.: Дело, 2005.
  5. Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006.
  6. Орлов А. И. Эконометрика. — М.: Экзамен, 2003.
  7. Айвазян С. А., Мхитарян В. С. Прикладная статистика. Том 1. Теория вероятностей и прикладная статистика. — М.: Юнити, 2001.
  8. Айвазян С. А. Прикладная статистика. Том 2. Основы эконометрики. — М.: Юнити, 2001.
  9. Вучков И., Бояджиева А., Солаков Е. Прикладной линейный регрессионный анализ. — М.: Финансы и статистика, 1987.
  10. Hastie, T., Tibshirani, R., Friedman, J. The Elements of Statistical Learning, 2nd edition. — Springer, 2009. — 533 p.  (подробнее)
  11. Kanji G. K. 100 statistical tests. — London: Thousand Oaks: New Dehli: SAGE Publications, 2006.
  12. Good P. Permutation, Parametric and Bootstrap Tests of Hypotheses: A Practical Guide to Resampling Methods for Testing Hypotheses. — New York: Springer, 2005.
  13. Дрейпер Н. Р., Смит Г. Прикладной регрессионный анализ. — М.: Издательский дом "Вильямс", 2007.
  14. Wooldridge J. Introductory Econometrics: A Modern Approach. — Mason: South-Western Cengage Learning, 2009.
  15. Hosmer D. W., Lemeshow S. Applied Logistic Regression. — New York: John Wiley & Sons, 2000.
  16. Вальд А. Последовательный анализ. - М.: Физматлит, 1960.


Ссылки


Подстраницы

Личные инструменты