Ковариационный анализ

Материал из MachineLearning.

Ковариационный анализ — совокупность методов математической статистики, относящихся к анализу моделей зависимости среднего значения некоторой случайной величины $Y$ одновременно от набора (основных) качественных факторов $F$ и (сопутствующих) количественных факторов $X$ . Факторы $F$ задают сочетания условий, при которых были получены наблюдения $X,Y$ , и описываются с помощью ндикаторных переменных, причем среди сопутствующих и индикаторных переменных могут быть как случайные, так и неслучайные (контролируемые в эксперименте).

Если случайная величина $Y$ является вектором, то говорят о многомерном ковариационном анализе.

Ковариационный анализ часто применяют перед дисперсионным анализом, чтобы проверить гомогенность (однородность, представительность) выборки наблюдений $X,Y$ по всем сопутствующим факторам.

Содержание

1 Примеры задач
2 Постановка задачи
3 Гипотезы и критерии ковариационного анализа
4 Литература

Примеры задач

Пример 1: Пусть у нас имеется 3 метода обучения арифметики и группа студентов. Группа разбивается случайным образом на 3 подгруппы для обучения одним из методов. В конце курса обучения студенты проходят общий тест, по результатам которого выставляются оценки. Также для каждого студента имеется одна или несколько характеристик (количественных) их общей образованности.

Требуется проверить гипотезу об одинаковой эффективности методик обучения.

Пример 2: Для сравнения качества нескольких видов крахмала (пшеничного, картофельного …) был проведён эксперимент, в котором измерялась прочность крахмальных плёнок. Также для каждого испытания измерена толщина использовавшейся крахмальной плёнки.

Требуется проверить гипотезу об одинаковом качестве различного крахмала.

Пример 3: Пусть для нескольких различных школ были собраны отметки их учеников, полученные на общем для всех экзамене. Также для каждого из учеников известны отметки, полученные ими по другим экзаменам (например, вступительным в школу).

Требуется проверить гипотезу об одинаковом качестве образования в школах.

Постановка задачи

Основные теоретические и прикладные проблемы ковариационного анализа относятся к линейным моделям. В частности, если анализируются $n$ наблюдений $Y_1,\ldots,Y_n$ с $p$ сопутствующими переменными $(X=(x^{(1)},\ldots,x^{(p)}))$ , $k$ возможными типами условий эксперимента $(F=(f_1,\ldots,f_k))$ , то линейная модель соответствующего ковариационного анализа задается уравнением:

$Y_i=\sum\limits_{j=1}^k{f_{ij}\theta_j} + \sum\limits_{j=1}^p{\beta_jx_i^{(j)} + \eps_{ij}}$

где $i=1,\ldots,n$ , индикаторные переменные $f_{ij}$ равны 1, если $j$ -е условие эксперимента имело место при наблюдении $Y_i$ , и равны 0 в противном случае. Коэффициенты $\theta_j$ определяют эффект влияния $j$ -го условия, $x_i^{(j)}$ — значение сопутствующей переменной $x^{(j)}$ , при котором получено наблюдение $Y_i$ , $\beta_j$ — значения соответствующих коэффициентов регрессии $Y$ по $x^{(j)}$ , $\eps_{ij}$ — независимые случайные ошибки с нулевым математическим ожиданием.

Приведённая формула задаёт линейную модель однофакторного ковариационного анализа с $p$ независимыми переменными и $k$ уровнями фактора. При включении в модель дополнительных факторов в правой части уравнения появятся слагаемые, отвечающие за эффекты уровней вновь введённых в модель факторов.

Замечание: коэффициенты регрессии в приведённой формуле не зависят от качественных факторов. Это включает предположение, что линейная зависимость имеет одинаковые коэффициенты для каждого значения качественного фактора.

Основное назначение ковариационного анализа — использование в построении статистических оценок $\theta_1,\ldots,\theta_k$ ; $\beta_1,\ldots,\beta_p$ и статистических критериев для проверки различных гипотез относительно значений этих параметров. Если в модели постулировать априори $\beta_1=\dots=\beta_p=0$ , то получится модель дисперсионного анализа, если же исключить влияние неколичественных факторов (положить $\theta_1=\dots=\theta_k=0$ ), то получится модель регрессионного анализа.

Гипотезы и критерии ковариационного анализа

Основной гипотезой, проверяемой в ковариационном анализе, является

$H_0:\; \theta_1=\theta_2=\dots=\theta_k.$

В случае одной сопутствеющей переменной ( $p=1$ ) эту гипотезу можно интерпретировать следующим образом. По предположениям линейной модели ковариационного анализа для каждого уровня фактора кривые регрессии зависимой переменной $Y$ на сопутствующую переменную $x$ параллельны. Гипотеза $H_0$ предполагает, что эти кривые совпадают.

Например, в задаче о сортах крахмала эта гипотеза утверждает, что различие прочности плёнок обусловлено исключительно различными значениями случайной переменной «толщина плёнки».

Обычно эта гипотеза проверяется с помощью критерия Фишера в результате сведения поставленной задачи к задачам дисперсионного анализа (см. [3] параграф 6.2).

Литература

Кендалл М.Дж., Стьюарт А. Многомерный статистический анализ и временные ряды. — М., 1976.
Шеффе Г. Дисперсионный анализ. — М., 1980.
Фишер Р. А. Статистические методы для исследователей. — М. Госстатиздат. 1958.