Таблица сопряженности

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Новая: Скоро здесь будет статья)
Строка 1: Строка 1:
-
Скоро здесь будет статья
+
==Описание таблиц сопряженности==
 +
'''Таблица сопряженности''' - средство представления совместного распределения двух переменных, предназначенное для исследования связи между ними. Таблица сопряженности является наиболее универсальным средством изучения статистических связей, так как в ней могут быть представлены переменные с любым уровнем измерения.
 +
 
 +
Строки таблицы сопряженности соответствуют значениям одной переменной, столбцы - значениям другой переменной (количественные шкалы предварительно должны быть сгруппированы в интервалы). На пересечении строки и столбца указывается частота совместного появления f<sub>ij</sub> соответствующих значений двух признаков x<sub>i</sub> и y<sub>j</sub>. Сумма частот по строке f<sub>i</sub> называется маргинальной частотой строки; сумма частот по столбцу f<sub>j</sub> - маргинальной частотой столбца. Сумма маргинальных частот равна объему выборки n; их распределение представляет собой одномерное распределение переменной, образующей строки или столбцы таблицы.
 +
 
 +
В таблицах сопряженности могут быть представлены как абсолютные, так и относительные частоты (в долях или процентах). Относительные частоты могут рассчитываться по отношению:
 +
* к маргинальной частоте по строке
 +
* к маргинальной частоте по столбцу
 +
* к объему выборки
 +
 
 +
Таблицы сопряженности используются для проверки гипотезы о наличии связи между двумя признаками ( [[Статистическая связь]], [[Описание таблиц сопряженности|Критерий "хи-квадрат"]] ), а также для измерения тесноты связи ( [[Коэффициент фи]], [[Коэффициент контингенции]], [[Коэффициент Крамера]])
 +
==Критерий "хи-квадрат" для анализа таблиц сопряженности==
 +
Гипотеза H<sub>0</sub>: переменные x и y независимы.
 +
Пусть имеется таблица сопряженности KxL, построенная для переменных x и y:
 +
{| border=1
 +
! || 1 || ... || j || ... || L
 +
|-
 +
! 1
 +
|-
 +
! ...
 +
|-
 +
! i
 +
| || || n<sub>ij</sub>
 +
|-
 +
! ...
 +
|-
 +
! K
 +
|}
 +
Введем следующие обозначения:<br>
 +
<tex>n_{ij}=\sum_{(x,y)}[x=i][y=j]</tex><br>
 +
<tex>n_{i}=\sum_{j}n_{ij}</tex><br>
 +
<tex>n_{j}=\sum_{i}n_{ij}</tex><br>
 +
<tex>n=\sum_{i}\sum_{j}n_{ij}</tex><br>
 +
<tex>\frac{n_{ij}}{n}</tex> - наблюдаемая частота (i,j)<br>
 +
<tex>E_{ij}=\frac{n_{i}n_{j}}{n}</tex> - ожидаемая частота при H<sub>0</sub><br>
 +
Статистика <tex>X^{2}=\sum_{(i,j)}\frac{(n_{ij}-\frac{n_{i}n_{j}}{n})^{2}}{\frac{n_{i}n_{j}}{n}}=n(\sum_{i=1}^{K}\sum_{j=1}^{L}\frac{n_{ij}^{2}}{n_{i}n_{j}}-1)\sim\chi_{KL-(K-1)-(L-1)-1}^{2}=\chi_{(K-1)(L-1)}^{2}</tex>
 +
===Условие применимости===
 +
E<sub>ij</sub><5 не более чем в 20% ячеек
 +
n>40
 +
===Частный случай K=L=2===
 +
{| border=1 cellpadding="6" cellspacing="0"
 +
|
 +
{|
 +
! || y
 +
|-
 +
! x
 +
|}
 +
! 1 || 2
 +
|- align="center"
 +
! 1
 +
|a || b
 +
|- align="center"
 +
! 2
 +
|c || d
 +
|}<br>
 +
Статистика <tex>X^{2}=\frac{n(ad-bc)^{2}}{(a+b)(a+c)(b+d)(c+d)}\sim\chi_{1}</tex>, где<br>
 +
<tex>n=a+b+c+d</tex><br>
 +
====Примеры задач====
 +
[[Эффективность ПК для поступления на ВМК МГУ]]
 +
==Литература==
 +
# [[Статистический анализ данных (курс лекций, К.В.Воронцов)/2008]]

Версия 10:34, 9 января 2009

Содержание

Описание таблиц сопряженности

Таблица сопряженности - средство представления совместного распределения двух переменных, предназначенное для исследования связи между ними. Таблица сопряженности является наиболее универсальным средством изучения статистических связей, так как в ней могут быть представлены переменные с любым уровнем измерения.

Строки таблицы сопряженности соответствуют значениям одной переменной, столбцы - значениям другой переменной (количественные шкалы предварительно должны быть сгруппированы в интервалы). На пересечении строки и столбца указывается частота совместного появления fij соответствующих значений двух признаков xi и yj. Сумма частот по строке fi называется маргинальной частотой строки; сумма частот по столбцу fj - маргинальной частотой столбца. Сумма маргинальных частот равна объему выборки n; их распределение представляет собой одномерное распределение переменной, образующей строки или столбцы таблицы.

В таблицах сопряженности могут быть представлены как абсолютные, так и относительные частоты (в долях или процентах). Относительные частоты могут рассчитываться по отношению:

  • к маргинальной частоте по строке
  • к маргинальной частоте по столбцу
  • к объему выборки

Таблицы сопряженности используются для проверки гипотезы о наличии связи между двумя признаками ( Статистическая связь, Критерий "хи-квадрат" ), а также для измерения тесноты связи ( Коэффициент фи, Коэффициент контингенции, Коэффициент Крамера)

Критерий "хи-квадрат" для анализа таблиц сопряженности

Гипотеза H0: переменные x и y независимы. Пусть имеется таблица сопряженности KxL, построенная для переменных x и y:

1 ... j ... L
1
...
i nij
...
K

Введем следующие обозначения:
n_{ij}=\sum_{(x,y)}[x=i][y=j]
n_{i}=\sum_{j}n_{ij}
n_{j}=\sum_{i}n_{ij}
n=\sum_{i}\sum_{j}n_{ij}
\frac{n_{ij}}{n} - наблюдаемая частота (i,j)
E_{ij}=\frac{n_{i}n_{j}}{n} - ожидаемая частота при H0
Статистика X^{2}=\sum_{(i,j)}\frac{(n_{ij}-\frac{n_{i}n_{j}}{n})^{2}}{\frac{n_{i}n_{j}}{n}}=n(\sum_{i=1}^{K}\sum_{j=1}^{L}\frac{n_{ij}^{2}}{n_{i}n_{j}}-1)\sim\chi_{KL-(K-1)-(L-1)-1}^{2}=\chi_{(K-1)(L-1)}^{2}

Условие применимости

Eij<5 не более чем в 20% ячеек n>40

Частный случай K=L=2

y
x
1 2
1 a b
2 c d

Статистика X^{2}=\frac{n(ad-bc)^{2}}{(a+b)(a+c)(b+d)(c+d)}\sim\chi_{1}, где
n=a+b+c+d

Примеры задач

Эффективность ПК для поступления на ВМК МГУ

Литература

  1. Статистический анализ данных (курс лекций, К.В.Воронцов)/2008
Личные инструменты