Таблица сопряженности

Материал из MachineLearning.

Версия от 04:23, 3 декабря 2013; Riabenko (Обсуждение | вклад)
(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)
Перейти к: навигация, поиск

Содержание

Описание таблиц сопряженности

Таблица сопряженности - средство представления совместного распределения двух переменных, предназначенное для исследования связи между ними. Таблица сопряженности является наиболее универсальным средством изучения статистических связей, так как в ней могут быть представлены переменные с любым уровнем измерения.

Строки таблицы сопряженности соответствуют значениям одной переменной, столбцы - значениям другой переменной (количественные шкалы предварительно должны быть сгруппированы в интервалы). На пересечении строки и столбца указывается частота совместного появления fij соответствующих значений двух признаков xi и yj. Сумма частот по строке fi называется маргинальной частотой строки; сумма частот по столбцу fj - маргинальной частотой столбца. Сумма маргинальных частот равна объему выборки n; их распределение представляет собой одномерное распределение переменной, образующей строки или столбцы таблицы.

В таблицах сопряженности могут быть представлены как абсолютные, так и относительные частоты (в долях или процентах). Относительные частоты могут рассчитываться по отношению:

  • к маргинальной частоте по строке
  • к маргинальной частоте по столбцу
  • к объему выборки

Таблицы сопряженности используются для проверки гипотезы о наличии связи между двумя признаками ( Статистическая связь, Критерий "хи-квадрат" ), а также для измерения тесноты связи ( Коэффициент фи, Коэффициент контингенции, Коэффициент Крамера)

Критерий "хи-квадрат" для анализа таблиц сопряженности

Гипотеза H0: переменные x и y независимы. Пусть имеется таблица сопряженности KxL, построенная для переменных x и y:

1 ... j ... L
1
...
i nij
...
K

Введем следующие обозначения:
n_{ij}=\sum_{(x,y)}[x=i][y=j]
n_{i}=\sum_{j}n_{ij}
n_{j}=\sum_{i}n_{ij}
n=\sum_{i}\sum_{j}n_{ij}
\frac{n_{ij}}{n} - наблюдаемая частота (i,j)
E_{ij}=\frac{n_{i}n_{j}}{n} - ожидаемая частота при H0
Статистика X^{2}=\sum_{(i,j)}\frac{(n_{ij}-\frac{n_{i}n_{j}}{n})^{2}}{\frac{n_{i}n_{j}}{n}}=n(\sum_{i=1}^{K}\sum_{j=1}^{L}\frac{n_{ij}^{2}}{n_{i}n_{j}}-1)\sim\chi_{KL-(K-1)-(L-1)-1}^{2}=\chi_{(K-1)(L-1)}^{2}

Условие применимости

Eij<5 не более чем в 20% ячеек n>40

Частный случай K=L=2

y
x
1 2
1 a b
2 c d

Статистика X^{2}=\frac{n(ad-bc)^{2}}{(a+b)(a+c)(b+d)(c+d)}\sim\chi_{1}, где
n=a+b+c+d

Примеры задач

Эффективность ПК для поступления на ВМК МГУ

Литература

  1. Лапач С. Н. , Чубенко А. В., Бабич П. Н. Статистика в науке и бизнесе. — Киев: Морион, 2002.
  2. Г. Аптон. Анализ таблиц сопряженности
Личные инструменты