Двухфакторная непараметрическая модель для неполных данных

Материал из MachineLearning.

(Различия между версиями)

Текущая версия

Содержание

1 Постановка задачи
2 Критерий Принтиса
3 Критерий Мака-Скиллингса
4 Критерий Лемана-Мака
5 Примеры задач
6 Литература

Постановка задачи

Пусть имеется таблица дисперсионного анализа с $k$ уровнями фактора $A$ и $m$ уровнями фактора $B$ . В каждой ячейке таблицы данные могут как присутствовать, так и отсутствовать.

Все нижеследующие критерии проверяют достоверность гипотезы о влиянии факторов на поведение результатов эксперимента.

Критерий Принтиса

Предположим, что в каждой ячейке таблицы находится либо одно наблюдение, либо ни одного ( $n_{ij} = 1$ или $n_{ij} = 0$ соответственно). В каждой j-ой строке ранжируем по возрастанию все $n_j$ наблюдений и получаем последовательности рангов $R_{j1},...,R_{jn}$ для всех $j=1,2,...,m$ .

Пусть $S_i$ - множество строк, в которых есть наблюдение над i-m столбцом. Вычисляем:

$a_i = \sum\limits_{j \in S_i}{$ \frac{R_{ij}}{n_j+1} - 0,5 $};$

$w_{ii} = \frac{1}{12}\sum\limits_{j \in S_i}{\frac{n_j-1}{n_j+1}};$

$w_{ii'} = -\frac{1}{12}\sum\limits_{j \in S_i \cap S_{i'}}{\frac{1}{n_j+1}};$

$i \neq i';\ i,i' = 1,...,k$

Строим матрицу $W = ||w_{ii'}||$ без v-го столбца и v-ой строки ( $1 \leq v \leq k$ ) и вектор $a = (a_1,...,a_{v-1},a_{v+1},...,a_k)$ . Вычисляем матрицу $W^{-1}$ и квадратичную форму $c = aW^{-1}a^T$ .

При достаточно больших выборках ( $m \geq 8$ , $k \geq 6$ ) имеет место факт, что если $c \geq \chi_\alpha^2(k-1)$ , то гипотеза об отсутствии влияния исследуемых факторов отклоняется с вероятностью $\alpha$ ( $\chi_\alpha^2(k-1)$ - квантиль распределения хи-квадрат с $f = k-1$ степенями свободы).

Критерий Мака-Скиллингса

Теперь в каждой ячейке допускается любое число наблюдений $n_{ji}$ . Пусть $N = \sum\limits_{j,i}{n_{ji}}$ .

Ранжируем все наблюдения j-й строки по возрастанию от 1 до $n_j = \sum\limits_{i=1}{k}{n_{ji}}$ . Обозначив через $r_{jiv}$ ранг наблюдения $x_{jiv}$ в общей последовательности ( $j=1,...,m;$ $i=1,...,k;$ $v = 1,...,n_{ji}$ ), вычисляем:

$R_{ji} = \sum\limits_{v=1}^{n_{ji}}{r_{jiv_{ji}}};$

$R_i = \frac{1}{n_j}\sum\limits_{j=1}^{m}{R_{ji}}$

В случае пропорциональных частот ( $n_{ji} = \frac{N}{mk} = \frac{n_i\tilde{n_i}}{\sum{n_{ji}}},\ \tilde{n_i} = \sum\limits_{j=1}^{m}{n_{ji}}$ ) статистика критерия примет вид

$T = \frac{12}{N(N+1)} \sum\limits_{i=1}^{k}{\tilde{n_i} $ \tilde{R_i} - \frac{N+m}{2} $^2 },$

где $\tilde{R_i} = \frac{1}{n_{ji}}\sum\limits_{j=1}^{m}{R_{ji}}$ При $N = \sum{n_{ji}} \rightarrow \infty$ ( $N>15$ ) справедлива $\chi^2$ -аппроксимация. Влияние изучаемых факторов на поведение случайной величины с достоверностью $\alpha$ признается значимым, если $T \geq \chi_\alpha^2(k-1)$ .

Критерий Лемана-Мака

Ранжируем все $n_j = \sum\limits_{i=1}{k}{n_{ji}}$ наблюдений внутри j-й строки и обозначим через $R_{jiv}$ ранг наблюдения $x_{jiv}$ ( $v=1,...,n$ ).

Вычисляем сумму и средний ранг наблюдения над j-м столбцом в i-й строке:

$R_{ji} = \frac{1}{n_{ji}} \sum\limits_{v=1}^{n_{ji}}{R_{jiv}}$

Далее, вычисляем значение статистики Краскела-Уоллиса:

$H = \frac{12}{n_j(n_j+1)} \sum\limits_{i=1}^{k}{n_{ji} $ R_{ji} - \frac{n_j+1}{2} $^2 } = \frac{12}{n_j(n_j+1)} \sum\limits_{i=1}^{k}{\frac{1}{n_{ij}}(R_{ji}n_{ji})^2} - 3(n_j+1) = \frac{12}{n_j(n_j+1)} \sum\limits_{i=1}^{k}{\frac{1}{n_{ij}}(\sum\limits_{v=1}^{n_{ji}}{R_v_{jiv}}})^2 - 3(n_j+1)$

Вычисляем статистику критерия (сумму статистик Краскела-Уоллиса):

$H = \sum\limits_{j=1}^{m}{H_j} = \sum\limits_{j=1}^{m}{\frac{12}{n_j(n_j+1)}} \sum\limits_{i=1}^{k}{n_{ji} $ R_{ji} - \frac{n_j+1}{2} $^2}$

Примеры задач

Названные критерии широко применяются для решения биометрческих, медицинских других прикладных задач, где сбор данных может быть затруднителен. В частности, критерий Принтиса используется для проверки влияния дорогих сильнодействующих лекарств на определенные группы пацинтов.

Литература

Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006. — 816 с.
Berger V. W. Does the Prentice criterion validate surrogate endpoints? // Statistics in Medicine. — 2007, №23/10. — Pp. 1571–1578.

Источник — «http://machinelearning.ru/wiki/index.php?title=%D0%94%D0%B2%D1%83%D1%85%D1%84%D0%B0%D0%BA%D1%82%D0%BE%D1%80%D0%BD%D0%B0%D1%8F_%D0%BD%D0%B5%D0%BF%D0%B0%D1%80%D0%B0%D0%BC%D0%B5%D1%82%D1%80%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B0%D1%8F_%D0%BC%D0%BE%D0%B4%D0%B5%D0%BB%D1%8C_%D0%B4%D0%BB%D1%8F_%D0%BD%D0%B5%D0%BF%D0%BE%D0%BB%D0%BD%D1%8B%D1%85_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85»

Категория: Дисперсионный анализ

@@ Строка 1: / Строка 1: @@
 == Постановка задачи ==
 Пусть имеется таблица дисперсионного анализа с <tex>k</tex> уровнями фактора <tex>A</tex> и <tex>m</tex> уровнями фактора <tex>B</tex>. В каждой ячейке таблицы данные могут как присутствовать, так и отсутствовать.
+Все нижеследующие критерии проверяют достоверность гипотезы о влиянии факторов на поведение результатов эксперимента.
 == Критерий Принтиса ==

Двухфакторная непараметрическая модель для неполных данных

Материал из MachineLearning.

Текущая версия

Содержание

Постановка задачи

Критерий Принтиса

Критерий Мака-Скиллингса

Критерий Лемана-Мака

Примеры задач

Литература

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты