Ковариационный анализ
Материал из MachineLearning.
(Уточнение постановки задачи) |
|||
Строка 33: | Строка 33: | ||
Основное назначение ковариационного анализа - использование в построении статистических оценок <tex>\theta_1,...,\theta_k</tex>; <tex>\beta_1,...,\beta_p</tex> и статистических критериев для проверки различных гипотез относительно значений этих параметров. Если в модели постулировать априори <tex>\beta_1=...=\beta_p=0</tex>, то получится модель ''дисперсионного анализа'', если же исключить влияние неколичественных факторов (положить <tex>\theta_1=...=\theta_k=0</tex>), то получится модель ''регрессионного анализа''. | Основное назначение ковариационного анализа - использование в построении статистических оценок <tex>\theta_1,...,\theta_k</tex>; <tex>\beta_1,...,\beta_p</tex> и статистических критериев для проверки различных гипотез относительно значений этих параметров. Если в модели постулировать априори <tex>\beta_1=...=\beta_p=0</tex>, то получится модель ''дисперсионного анализа'', если же исключить влияние неколичественных факторов (положить <tex>\theta_1=...=\theta_k=0</tex>), то получится модель ''регрессионного анализа''. | ||
+ | == Гипотезы и критерии ковариационного анализа == | ||
+ | |||
+ | Основной гипотезой, проверяемой в ковариационном анализе является | ||
+ | |||
+ | ::<tex>H_0: \theta_1=\theta_2=\ldots=\theta_k.</tex> | ||
+ | |||
+ | В случае одной сопутствеющей переменной (<tex>p=1</tex>) эту гипотезу можно интерпретировать следующим образом. | ||
+ | По предположениям линейной модели ковариационного анализа для каждого уровня фактора кривые регрессии зависимой переменной <tex>Y</tex> на сопутствующую переменную <tex>x</tex> параллельны. | ||
+ | Гипотеза <tex>H_0</tex> предполагает, что эти кривые совпадают. | ||
+ | |||
+ | ''Например, в задаче о сортах крахмале эта гипотеза утверждает, что различие прочности плёнок обусловлено исключительно различными значениями случайной переменной "толщина плёнки". | ||
+ | |||
+ | Обычно эта гипотеза проверяется с помощью [[Критерий Фишера|критерия Фишера]] в результате сведения поставленной задачи к задачам [[Дисперсионный анализ|дисперсионного анализа]] (см. [3] параграф 6.2). | ||
== Литература == | == Литература == | ||
# ''Кендалл М.Дж., Стьюарт А.'' Многомерный статистический анализ и временные ряды. — М., 1976. | # ''Кендалл М.Дж., Стьюарт А.'' Многомерный статистический анализ и временные ряды. — М., 1976. |
Версия 16:22, 8 января 2010
Ковариационный анализ - совокупность методов математической статистики, относящихся к анализу моделей зависимости среднего значения некоторой случайной величины одновременно от набора количественных факторов и неколичественных факторов . По отношению к переменные называются сопутствующими. Факторы задают сочетания условий качественной природы, при которых были получены наблюдения и , и описываются с помощью так называемых индикаторных переменных, причем среди сопутствующих и индикаторных переменных могут быть как случайные, так и неслучайные (контролируемые в эксперименте).
Если случайная величина является вектором, то говорят о многомерном ковариационном анализе.
Содержание |
Примеры задач
Пример 1: Пусть у нас имеется 3 метода обучения арифметики и группа студентов. Студенты бьются случайным образом на 3 группы для обучения одним из методов. В конце курса обучения студенты проходят общий тест по результатам которого выставляются оценки. Также для каждого студента имеется одна или несколько характеристик (количественных) их общей образованности.
Требуется проверить гипотезу об одинаковой эффективности методик обучения.
Пример 2: Для сравнения качества нескольких видов крахмала (пшеничного, картофельного ...) был проведён эксперимент, в котором измерялась прочность крахмальных плёнок. Также для каждого испытания измерена толщина использовавшейся крахмальной плёнки.
Требуется проверить гипотезу об одинаковом качестве различного крахмала.
Пример 3: Пусть для нескольких различных школ были собраны отметки их учеников, полученные на общем для всех экзамене. Также для каждого из учеников известны отметки, полученные ими по другим экзаменам (например, вступительным в школу).
Требуется проверить гипотезу об одинаковом качестве образования в школах.
Постановка задачи
Основные теоретические и прикладные проблемы ковариационного анализа относятся к линейным моделям. В частности, если анализируются наблюдений с сопутствующими переменными , возможными типами условий эксперимента , то линейная модель соответствующего ковариационного анализа задается уравнением:
где , индикаторные переменные равны 1, если j-е условие эксперимента имело место при наблюдении , и равны 0 в противном случае. Коэффициенты определяют эффект влияния j-го условия, - значение сопутствующей переменной , при котором получено наблюдение . - значения соответствующих коэффициентов регрессии по , - независимые случайные ошибки с нулевым математическим ожиданием.
Приведённая формула задаёт линейную модель однофакторного ковариационного анализа с независимыми переменными и уровнями фактора. При включении в модель дополнительных факторов в правой части уравнения появятся слагаемые, отвечающие за эффекты уровней вновь введённых в модель факторов.
Замечание: коэффициенты регрессии в приведённой формуле не зависят от качественных факторов. Это включает предположение, что линейная зависимость имеет одинаковые коэффициенты для каждого значения качественного фактора.
Основное назначение ковариационного анализа - использование в построении статистических оценок ; и статистических критериев для проверки различных гипотез относительно значений этих параметров. Если в модели постулировать априори , то получится модель дисперсионного анализа, если же исключить влияние неколичественных факторов (положить ), то получится модель регрессионного анализа.
Гипотезы и критерии ковариационного анализа
Основной гипотезой, проверяемой в ковариационном анализе является
В случае одной сопутствеющей переменной () эту гипотезу можно интерпретировать следующим образом. По предположениям линейной модели ковариационного анализа для каждого уровня фактора кривые регрессии зависимой переменной на сопутствующую переменную параллельны. Гипотеза предполагает, что эти кривые совпадают.
Например, в задаче о сортах крахмале эта гипотеза утверждает, что различие прочности плёнок обусловлено исключительно различными значениями случайной переменной "толщина плёнки".
Обычно эта гипотеза проверяется с помощью критерия Фишера в результате сведения поставленной задачи к задачам дисперсионного анализа (см. [3] параграф 6.2).
Литература
- Кендалл М.Дж., Стьюарт А. Многомерный статистический анализ и временные ряды. — М., 1976.
- Шеффе Г. Дисперсионный анализ. — М., 1980.
- Фишер Р. А. Статистические методы для исследователей. — М. Госстатиздат. 1958.
Данная статья является непроверенным учебным заданием.
До указанного срока статья не должна редактироваться другими участниками проекта MachineLearning.ru. По его окончании любой участник вправе исправить данную статью по своему усмотрению и удалить данное предупреждение, выводимое с помощью шаблона {{Задание}}. См. также методические указания по использованию Ресурса MachineLearning.ru в учебном процессе. |