Статистический анализ данных (курс лекций, К.В.Воронцов)

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
м (Критерий Шапиро-Уилка)
м
Строка 19: Строка 19:
Обзор необходимых сведений из теории вероятностей и математической статистики.
Обзор необходимых сведений из теории вероятностей и математической статистики.
-
* Понятия [[Выборка#Простая выборка|простой выборки]] и [[статистика (функция выборки)|статистики]]. Примеры статистик: [[момент]]ы, [[асимметрия]] и [[эксцесс]], [[вариационный ряд]] и [[порядковые статистики]], [[эмпирическое распределение]].
+
* Понятия [[Простая выборка|простой выборки]] и [[статистика (функция выборки)|статистики]]. Примеры статистик: [[момент]]ы, [[асимметрия]] и [[эксцесс]], [[вариационный ряд]] и [[порядковые статистики]], [[эмпирическое распределение]].
* [[Проверка статистических гипотез]], основные понятия: [[уровень значимости]], [[пи-величина]] (p-value), критическая область, критическая функция, ошибки I и II рода. Односторонние и двусторонние критические области.
* [[Проверка статистических гипотез]], основные понятия: [[уровень значимости]], [[пи-величина]] (p-value), критическая область, критическая функция, ошибки I и II рода. Односторонние и двусторонние критические области.
* Свойства критериев: [[несмещённость]], [[состоятельность]], [[мощность критерия|равномерная мощность]].
* Свойства критериев: [[несмещённость]], [[состоятельность]], [[мощность критерия|равномерная мощность]].
Строка 30: Строка 30:
* [[Нормальные параметрические критерии]] для проверки гипотез: [[гипотезы о положении]], [[гипотезы о рассеивании]] [Лапач, §3.2]. Примеры прикладных задач из областей медицины, агрономии, маркетинга.
* [[Нормальные параметрические критерии]] для проверки гипотез: [[гипотезы о положении]], [[гипотезы о рассеивании]] [Лапач, §3.2]. Примеры прикладных задач из областей медицины, агрономии, маркетинга.
* Систематизация критериев.
* Систематизация критериев.
-
* Гипотеза о равенстве средних: [[критерий Стьюдента]] для одной и двух выборок, связанные выборки, [[метод множественных сравнений Шеффе]], [[метод LSD]]. Пример: задача формирования ценовых коридоров.
+
* Гипотеза о равенстве средних: [[критерий Стьюдента]] для одной и двух выборок, связанные выборки, [[гипотеза сдвига]], [[метод множественных сравнений Шеффе]], [[метод LSD]]. Пример: задача формирования ценовых коридоров.
* Гипотеза о равенстве дисперсий: [[критерий Фишера]], [[критерий Кокрена]], [[критерий Бартлета]].
* Гипотеза о равенстве дисперсий: [[критерий Фишера]], [[критерий Кокрена]], [[критерий Бартлета]].
* Критерии нормальности: [[Критерий Шапиро-Уилка]], [[критерий Колмогорова-Смирнова]], [[критерий омега-квадрат]] фон Мизеса, [[критерий хи-квадрат]] (Пирсона). Исторический пример: проверка закона Менделя А.Н.Колмогоровым [Тюрин, 306]. Упрощённые проверки нормальности по асимметрии и эксцессу. Эмпирические подтверждения ненормальности реальных измерений [Орлов, стр. 71–77].
* Критерии нормальности: [[Критерий Шапиро-Уилка]], [[критерий Колмогорова-Смирнова]], [[критерий омега-квадрат]] фон Мизеса, [[критерий хи-квадрат]] (Пирсона). Исторический пример: проверка закона Менделя А.Н.Колмогоровым [Тюрин, 306]. Упрощённые проверки нормальности по асимметрии и эксцессу. Эмпирические подтверждения ненормальности реальных измерений [Орлов, стр. 71–77].
=== Непараметрическая проверка гипотез ===
=== Непараметрическая проверка гипотез ===
-
* Непараметрические ранговые критерии для проверки гипотез: [[гипотезы о положении]], [[гипотезы о рассеивании]] [Лапач, §3.3].
+
* Непараметрические ранговые критерии для проверки гипотез: [[Критерий Уилкоксона-Манна-Уитни]], [[гипотезы о положении]], [[гипотезы о рассеивании]] [Лапач, §3.3].
* Элементы [[теория измерений|теории измерений]]: номинальные, порядковые и количественные переменные; инварианты. Разновидности [[Обобщённое среднее|средних]]: по Коши, по Колмогорову, мода, медиана. Среднее в порядковой шкале [Орлов, гл. 3]. Пример: маркетинговое исследование привлекательности продуктов (образовательных услуг); важность постановки вопросов при формировании анкет [Орлов, 229].
* Элементы [[теория измерений|теории измерений]]: номинальные, порядковые и количественные переменные; инварианты. Разновидности [[Обобщённое среднее|средних]]: по Коши, по Колмогорову, мода, медиана. Среднее в порядковой шкале [Орлов, гл. 3]. Пример: маркетинговое исследование привлекательности продуктов (образовательных услуг); важность постановки вопросов при формировании анкет [Орлов, 229].
* [[Вариационный ряд]], ранги и связки.
* [[Вариационный ряд]], ранги и связки.

Версия 22:08, 15 августа 2008

Содержание

Курс знакомит студентов с основными задачами и методами прикладной статистики.

Цели курса — связать теорию и практику, научить студентов «видеть» статистические задачи в различных предметных областях и правильно применять методы прикладной статистики, показать на практических примерах возможности и ограничения статистических методов. Курс имеет скорее методологическую, чем математическую направленность и не содержит доказательств теорем.

Каждый метод описывается по единой схеме:

  • постановка задачи;
  • примеры прикладных задач из области экономики, социологии, производства, медицины;
  • базовые предположения и границы применимости;
  • описание метода (для методов проверки статистических гипотез: нулевая гипотеза и альтернативы, статистика, её функция распределения с эскизом графика, критическая область);
  • достоинства, недостатки, ограничения, «подводные камни»;
  • сравнение с другими методами.

Курс читается студентам 5 курса кафедры Математические методы прогнозирования ВМиК МГУ, начиная с 2007 года. Предполагается, что студенты уже прослушали курсы теории вероятностей и математической статистики, знакомы с элементами дискриминантного, факторного и кластерного анализа (по кафедральному курсу «Математические методы распознавания образов»), регрессионного анализа и анализа временных рядов (по кафедральному курсу ММП).

Программа курса

Введение

Обзор необходимых сведений из теории вероятностей и математической статистики.

Параметрическая проверка гипотез

Непараметрическая проверка гипотез

Дисперсионный анализ (ANOVA)

[Лапач, 193, Кулаичев, 170].

Корреляционный анализ

[Лапач, 174].

Анализ таблиц сопряженности (кросстабуляции)

[Лапач, 204, 316, Лагутин, Т2:174, Кулаичев, 162].

Анализ рисков. Пробит- и логит-анализ

[Лапач, 387].

Выборочный анализ

Регрессионный анализ

Оценивание регрессионных моделей

Анализ временных рядов

Построение интегральных индикаторов

Панельные исследования

Литература

  1. Лапач С. Н. , Чубенко А. В., Бабич П. Н. Статистика в науке и бизнесе. — Киев: Морион, 2002.
  2. Орлов А. И. Эконометрика. — М.: Экзамен, 2003.
  3. Лагутин М. Б. Наглядная математическая статистика. В двух томах. — М.: П-центр, 2003.
  4. Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006.
  5. Айвазян С. А., Мхитарян В. С. Прикладная статистика. Том 1. Теория вероятностей и прикладная статистика. — М.: Юнити, 2001.
  6. Айвазян С. А. Прикладная статистика. Том 2. Основы эконометрики. — М.: Юнити, 2001.
  7. Кулаичев А. П. Методы и средства комплексного анализа данных. — М.: Форум–Инфра-М, 2006.
  8. Тюрин Ю. Н., Макаров А. А. Анализ данных на компьютере. — М.: Инфра-М, 2003.
  9. Вучков И., Бояджиева А., Солаков Е. Прикладной линейный регрессионный анализ. — М.: Финансы и статистика, 1987.
  10. Лукашин Ю. П. Адаптивные методы краткосрочного прогнозирования временных рядов. — М.: Финансы и статистика, 2003.
  11. Friedman R., Hastie T., Tibshirani J. The elements of statistical learning. – Springer, 2001.
  12. Strijov, V., Shakin, V. Index construction: the expert-statistical method. // Environmental research, engineering and management 2003. No.4 (26), P.51-55.
  13. Стрижов В. В., Казакова Т. В. Устойчивые интегральные индикаторы с выбором опорного множества описаний. // Заводская лаборатория. Диагностика материалов. 2007 (7). C. 72-76.
  14. Литвак Б. Г. Экспертная информация: Методы получения и анализа. – М.: Радио и связь, 1982. – 184 с.
  15. Стрижов В. В. Уточнение экспертных оценок с помощью измеряемых данных. // Заводская лаборатория. Диагностика материалов. 2006 (7). С.59-64.
  16. Вуколов Э. А. Основы статистического анализа. Практикум по статистическим методам и исследованиею операций STATISTA и EXCEL / 2-е изд., испр. и доп.: Учеб. пособие. — М.:ФОРУМ, 2008. — 463 с. — ISBN 978-5-91134-231-9.

Ссылки

Личные инструменты