Таблица сопряженности

Материал из MachineLearning.

(Различия между версиями)

Версия 10:34, 9 января 2009

Содержание

1 Описание таблиц сопряженности
2 Критерий "хи-квадрат" для анализа таблиц сопряженности
- 2.1 Условие применимости
- 2.2 Частный случай K=L=2
  - 2.2.1 Примеры задач
3 Литература

Описание таблиц сопряженности

Таблица сопряженности - средство представления совместного распределения двух переменных, предназначенное для исследования связи между ними. Таблица сопряженности является наиболее универсальным средством изучения статистических связей, так как в ней могут быть представлены переменные с любым уровнем измерения.

Строки таблицы сопряженности соответствуют значениям одной переменной, столбцы - значениям другой переменной (количественные шкалы предварительно должны быть сгруппированы в интервалы). На пересечении строки и столбца указывается частота совместного появления f_ij соответствующих значений двух признаков x_i и y_j. Сумма частот по строке f_i называется маргинальной частотой строки; сумма частот по столбцу f_j - маргинальной частотой столбца. Сумма маргинальных частот равна объему выборки n; их распределение представляет собой одномерное распределение переменной, образующей строки или столбцы таблицы.

В таблицах сопряженности могут быть представлены как абсолютные, так и относительные частоты (в долях или процентах). Относительные частоты могут рассчитываться по отношению:

к маргинальной частоте по строке
к маргинальной частоте по столбцу
к объему выборки

Таблицы сопряженности используются для проверки гипотезы о наличии связи между двумя признаками ( Статистическая связь, Критерий "хи-квадрат" ), а также для измерения тесноты связи ( Коэффициент фи, Коэффициент контингенции, Коэффициент Крамера)

Критерий "хи-квадрат" для анализа таблиц сопряженности

Гипотеза H₀: переменные x и y независимы. Пусть имеется таблица сопряженности KxL, построенная для переменных x и y:

	1	...	j	...	L
1
...
i			n_ij
...
K

Введем следующие обозначения:
$n_{ij}=\sum_{(x,y)}[x=i][y=j]$
$n_{i}=\sum_{j}n_{ij}$
$n_{j}=\sum_{i}n_{ij}$
$n=\sum_{i}\sum_{j}n_{ij}$
$\frac{n_{ij}}{n}$ - наблюдаемая частота (i,j)
$E_{ij}=\frac{n_{i}n_{j}}{n}$ - ожидаемая частота при H₀
Статистика $X^{2}=\sum_{(i,j)}\frac{(n_{ij}-\frac{n_{i}n_{j}}{n})^{2}}{\frac{n_{i}n_{j}}{n}}=n(\sum_{i=1}^{K}\sum_{j=1}^{L}\frac{n_{ij}^{2}}{n_{i}n_{j}}-1)\sim\chi_{KL-(K-1)-(L-1)-1}^{2}=\chi_{(K-1)(L-1)}^{2}$

Условие применимости

E_ij<5 не более чем в 20% ячеек n>40

Частный случай K=L=2

	y
x

Статистика $X^{2}=\frac{n(ad-bc)^{2}}{(a+b)(a+c)(b+d)(c+d)}\sim\chi_{1}$ , где
$n=a+b+c+d$

Примеры задач

Эффективность ПК для поступления на ВМК МГУ

Литература

Статистический анализ данных (курс лекций, К.В.Воронцов)/2008

Источник — «http://machinelearning.ru/wiki/index.php?title=%D0%A2%D0%B0%D0%B1%D0%BB%D0%B8%D1%86%D0%B0_%D1%81%D0%BE%D0%BF%D1%80%D1%8F%D0%B6%D0%B5%D0%BD%D0%BD%D0%BE%D1%81%D1%82%D0%B8»

@@ Строка 1: / Строка 1: @@
-Скоро здесь будет статья
+==Описание таблиц сопряженности==
+'''Таблица сопряженности''' - средство представления совместного распределения двух переменных, предназначенное для исследования связи между ними. Таблица сопряженности является наиболее универсальным средством изучения статистических связей, так как в ней могут быть представлены переменные с любым уровнем измерения.
+Строки таблицы сопряженности соответствуют значениям одной переменной, столбцы - значениям другой  переменной (количественные шкалы предварительно должны быть сгруппированы в интервалы). На пересечении строки и столбца указывается частота совместного появления f<sub>ij</sub> соответствующих значений двух признаков x<sub>i</sub> и y<sub>j</sub>. Сумма частот по строке f<sub>i</sub> называется маргинальной частотой строки; сумма частот по столбцу f<sub>j</sub> - маргинальной частотой столбца. Сумма маргинальных частот равна объему выборки n; их распределение  представляет собой одномерное распределение переменной, образующей строки или столбцы таблицы.
+В таблицах сопряженности могут быть представлены как абсолютные, так и относительные частоты (в долях или процентах). Относительные частоты могут рассчитываться по отношению:
+* к маргинальной частоте по строке
+* к маргинальной частоте по столбцу
+* к объему выборки
+Таблицы сопряженности используются для проверки гипотезы о наличии связи между двумя признаками ( [[Статистическая связь]],  [[Описание таблиц сопряженности|Критерий "хи-квадрат"]] ), а также для измерения тесноты связи ( [[Коэффициент  фи]], [[Коэффициент контингенции]], [[Коэффициент Крамера]])
+==Критерий "хи-квадрат" для анализа таблиц сопряженности==
+Гипотеза H<sub>0</sub>: переменные x и y независимы.
+Пусть имеется таблица сопряженности KxL, построенная для переменных x и y:
+{| border=1
+! || 1 || ... || j || ... || L
+|-
+! 1
+|-
+! ...
+|-
+! i
+| || || n<sub>ij</sub>
+|-
+! ...
+|-
+! K
+|}
+Введем следующие обозначения:<br>
+<tex>n_{ij}=\sum_{(x,y)}[x=i][y=j]</tex><br>
+<tex>n_{i}=\sum_{j}n_{ij}</tex><br>
+<tex>n_{j}=\sum_{i}n_{ij}</tex><br>
+<tex>n=\sum_{i}\sum_{j}n_{ij}</tex><br>
+<tex>\frac{n_{ij}}{n}</tex> - наблюдаемая частота (i,j)<br>
+<tex>E_{ij}=\frac{n_{i}n_{j}}{n}</tex> - ожидаемая частота при H<sub>0</sub><br>
+Статистика <tex>X^{2}=\sum_{(i,j)}\frac{(n_{ij}-\frac{n_{i}n_{j}}{n})^{2}}{\frac{n_{i}n_{j}}{n}}=n(\sum_{i=1}^{K}\sum_{j=1}^{L}\frac{n_{ij}^{2}}{n_{i}n_{j}}-1)\sim\chi_{KL-(K-1)-(L-1)-1}^{2}=\chi_{(K-1)(L-1)}^{2}</tex>
+===Условие применимости===
+E<sub>ij</sub><5 не более чем в 20% ячеек
+n>40
+===Частный случай K=L=2===
+{| border=1 cellpadding="6" cellspacing="0"
+|
+{|
+! || y
+|-
+! x
+|}
+! 1 || 2
+|- align="center"
+! 1
+|a || b
+|- align="center"
+! 2
+|c || d
+|}<br>
+Статистика <tex>X^{2}=\frac{n(ad-bc)^{2}}{(a+b)(a+c)(b+d)(c+d)}\sim\chi_{1}</tex>, где<br>
+<tex>n=a+b+c+d</tex><br>
+====Примеры задач====
+[[Эффективность ПК для поступления на ВМК МГУ]]
+==Литература==
+# [[Статистический анализ данных (курс лекций, К.В.Воронцов)/2008]]

Таблица сопряженности

Материал из MachineLearning.

Версия 10:34, 9 января 2009

Содержание

Описание таблиц сопряженности

Критерий "хи-квадрат" для анализа таблиц сопряженности

Условие применимости

Частный случай K=L=2

Примеры задач

Литература

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты