Двухфакторная непараметрическая модель для неполных данных

Материал из MachineLearning.

Версия от 01:46, 10 января 2009; Serostanov (Обсуждение | вклад)
(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)
Перейти к: навигация, поиск

Содержание

Постановка задачи

Пусть имеется таблица дисперсионного анализа с k уровнями фактора A и m уровнями фактора B. В каждой ячейке таблицы данные могут как присутствовать, так и отсутствовать.

Критерий Принтиса

Предположим, что в каждой ячейке таблицы находится либо одно наблюдение, либо ни одного (n_{ij} = 1 или n_{ij} = 0 соответственно). В каждой j-ой строке ранжируем по возрастанию все n_j наблюдений и получаем последовательности рангов R_{j1},...,R_{jn} для всех j=1,2,...,m.

Пусть S_i - множество строк, в которых есть наблюдение над i-m столбцом. Вычисляем:

a_i = \sum\limits_{j \in S_i}{\( \frac{R_{ij}}{n_j+1} - 0,5 \)};
w_{ii} = \frac{1}{12}\sum\limits_{j \in S_i}{\frac{n_j-1}{n_j+1}};
w_{ii'} = -\frac{1}{12}\sum\limits_{j \in S_i \cap S_{i'}}{\frac{1}{n_j+1}};
i \neq i';\ i,i' = 1,...,k

Строим матрицу W = ||w_{ii'}|| без v-го столбца и v-ой строки (1 \leq v \leq k) и вектор a = (a_1,...,a_{v-1},a_{v+1},...,a_k). Вычисляем матрицу W^{-1} и квадратичную форму c = aW^{-1}a^T.

При достаточно больших выборках (m \geq 8, k \geq 6) имеет место факт, что если c \geq \chi_\alpha^2(k-1), то гипотеза об отсутствии влияния исследуемых факторов отклоняется с вероятностью \alpha (\chi_\alpha^2(k-1) - квантиль распределения хи-квадрат с f = k-1 степенями свободы).

Критерий Мака-Скиллингса

Теперь в каждой ячейке допускается любое число наблюдений n_{ji}. Пусть N = \sum\limits_{j,i}{n_{ji}}.

Ранжируем все наблюдения j-й строки по возрастанию от 1 до n_j = \sum\limits_{i=1}{k}{n_{ji}}. Обозначив через r_{jiv} ранг наблюдения x_{jiv} в общей последовательности (j=1,...,m; i=1,...,k; v = 1,...,n_{ji}), вычисляем:

R_{ji} = \sum\limits_{v=1}^{n_{ji}}{r_{jiv_{ji}}};
R_i = \frac{1}{n_j}\sum\limits_{j=1}^{m}{R_{ji}}

В случае пропорциональных частот (n_{ji} = \frac{N}{mk} = \frac{n_i\tilde{n_i}}{\sum{n_{ji}}},\ \tilde{n_i} = \sum\limits_{j=1}^{m}{n_{ji}} ) статистика критерия примет вид

T = \frac{12}{N(N+1)} \sum\limits_{i=1}^{k}{\tilde{n_i} \( \tilde{R_i} - \frac{N+m}{2} \)^2 },

где \tilde{R_i} = \frac{1}{n_{ji}}\sum\limits_{j=1}^{m}{R_{ji}} При N = \sum{n_{ji}} \rightarrow \infty (N>15) справедлива \chi^2-аппроксимация. Влияние изучаемых факторов на поведение случайной величины с достоверностью \alpha признается значимым, если T \geq \chi_\alpha^2(k-1).

Критерий Лемана-Мака

Ранжируем все n_j = \sum\limits_{i=1}{k}{n_{ji}} наблюдений внутри j-й строки и обозначим через R_{jiv} ранг наблюдения x_{jiv} (v=1,...,n).

Вычисляем сумму и средний ранг наблюдения над j-м столбцом в i-й строке:

R_{ji} = \frac{1}{n_{ji}} \sum\limits_{v=1}^{n_{ji}}{R_{jiv}}

Далее, вычисляем значение статистики Краскела-Уоллиса:

H = \frac{12}{n_j(n_j+1)} \sum\limits_{i=1}^{k}{n_{ji} \( R_{ji} - \frac{n_j+1}{2} \)^2 } = \frac{12}{n_j(n_j+1)} \sum\limits_{i=1}^{k}{\frac{1}{n_{ij}}(R_{ji}n_{ji})^2} - 3(n_j+1) =  \frac{12}{n_j(n_j+1)} \sum\limits_{i=1}^{k}{\frac{1}{n_{ij}}(\sum\limits_{v=1}^{n_{ji}}{R_v_{jiv}}})^2 - 3(n_j+1)

Вычисляем статистику критерия (сумму статистик Краскела-Уоллиса):

H = \sum\limits_{j=1}^{m}{H_j} = \sum\limits_{j=1}^{m}{\frac{12}{n_j(n_j+1)}} \sum\limits_{i=1}^{k}{n_{ji} \( R_{ji} - \frac{n_j+1}{2} \)^2}

Примеры задач

Названные критерии широко применяются для решения биометрческих, медицинских других прикладных задач, где сбор данных может быть затруднителен. В частности, критерий Принтиса используется для проверки влияния дорогих сильнодействующих лекарств на определенные группы пацинтов.

Литература

  1. Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006. — 816 с.
  2. Berger V. W. Does the Prentice criterion validate surrogate endpoints? // Statistics in Medicine. — 2007, №23/10. — Pp. 1571–1578.