Таблица сопряженности
Материал из MachineLearning.
(Новая: Скоро здесь будет статья) |
|||
Строка 1: | Строка 1: | ||
- | + | ==Описание таблиц сопряженности== | |
+ | '''Таблица сопряженности''' - средство представления совместного распределения двух переменных, предназначенное для исследования связи между ними. Таблица сопряженности является наиболее универсальным средством изучения статистических связей, так как в ней могут быть представлены переменные с любым уровнем измерения. | ||
+ | |||
+ | Строки таблицы сопряженности соответствуют значениям одной переменной, столбцы - значениям другой переменной (количественные шкалы предварительно должны быть сгруппированы в интервалы). На пересечении строки и столбца указывается частота совместного появления f<sub>ij</sub> соответствующих значений двух признаков x<sub>i</sub> и y<sub>j</sub>. Сумма частот по строке f<sub>i</sub> называется маргинальной частотой строки; сумма частот по столбцу f<sub>j</sub> - маргинальной частотой столбца. Сумма маргинальных частот равна объему выборки n; их распределение представляет собой одномерное распределение переменной, образующей строки или столбцы таблицы. | ||
+ | |||
+ | В таблицах сопряженности могут быть представлены как абсолютные, так и относительные частоты (в долях или процентах). Относительные частоты могут рассчитываться по отношению: | ||
+ | * к маргинальной частоте по строке | ||
+ | * к маргинальной частоте по столбцу | ||
+ | * к объему выборки | ||
+ | |||
+ | Таблицы сопряженности используются для проверки гипотезы о наличии связи между двумя признаками ( [[Статистическая связь]], [[Описание таблиц сопряженности|Критерий "хи-квадрат"]] ), а также для измерения тесноты связи ( [[Коэффициент фи]], [[Коэффициент контингенции]], [[Коэффициент Крамера]]) | ||
+ | ==Критерий "хи-квадрат" для анализа таблиц сопряженности== | ||
+ | Гипотеза H<sub>0</sub>: переменные x и y независимы. | ||
+ | Пусть имеется таблица сопряженности KxL, построенная для переменных x и y: | ||
+ | {| border=1 | ||
+ | ! || 1 || ... || j || ... || L | ||
+ | |- | ||
+ | ! 1 | ||
+ | |- | ||
+ | ! ... | ||
+ | |- | ||
+ | ! i | ||
+ | | || || n<sub>ij</sub> | ||
+ | |- | ||
+ | ! ... | ||
+ | |- | ||
+ | ! K | ||
+ | |} | ||
+ | Введем следующие обозначения:<br> | ||
+ | <tex>n_{ij}=\sum_{(x,y)}[x=i][y=j]</tex><br> | ||
+ | <tex>n_{i}=\sum_{j}n_{ij}</tex><br> | ||
+ | <tex>n_{j}=\sum_{i}n_{ij}</tex><br> | ||
+ | <tex>n=\sum_{i}\sum_{j}n_{ij}</tex><br> | ||
+ | <tex>\frac{n_{ij}}{n}</tex> - наблюдаемая частота (i,j)<br> | ||
+ | <tex>E_{ij}=\frac{n_{i}n_{j}}{n}</tex> - ожидаемая частота при H<sub>0</sub><br> | ||
+ | Статистика <tex>X^{2}=\sum_{(i,j)}\frac{(n_{ij}-\frac{n_{i}n_{j}}{n})^{2}}{\frac{n_{i}n_{j}}{n}}=n(\sum_{i=1}^{K}\sum_{j=1}^{L}\frac{n_{ij}^{2}}{n_{i}n_{j}}-1)\sim\chi_{KL-(K-1)-(L-1)-1}^{2}=\chi_{(K-1)(L-1)}^{2}</tex> | ||
+ | ===Условие применимости=== | ||
+ | E<sub>ij</sub><5 не более чем в 20% ячеек | ||
+ | n>40 | ||
+ | ===Частный случай K=L=2=== | ||
+ | {| border=1 cellpadding="6" cellspacing="0" | ||
+ | | | ||
+ | {| | ||
+ | ! || y | ||
+ | |- | ||
+ | ! x | ||
+ | |} | ||
+ | ! 1 || 2 | ||
+ | |- align="center" | ||
+ | ! 1 | ||
+ | |a || b | ||
+ | |- align="center" | ||
+ | ! 2 | ||
+ | |c || d | ||
+ | |}<br> | ||
+ | Статистика <tex>X^{2}=\frac{n(ad-bc)^{2}}{(a+b)(a+c)(b+d)(c+d)}\sim\chi_{1}</tex>, где<br> | ||
+ | <tex>n=a+b+c+d</tex><br> | ||
+ | ====Примеры задач==== | ||
+ | [[Эффективность ПК для поступления на ВМК МГУ]] | ||
+ | ==Литература== | ||
+ | # [[Статистический анализ данных (курс лекций, К.В.Воронцов)/2008]] |
Версия 10:34, 9 января 2009
Содержание |
Описание таблиц сопряженности
Таблица сопряженности - средство представления совместного распределения двух переменных, предназначенное для исследования связи между ними. Таблица сопряженности является наиболее универсальным средством изучения статистических связей, так как в ней могут быть представлены переменные с любым уровнем измерения.
Строки таблицы сопряженности соответствуют значениям одной переменной, столбцы - значениям другой переменной (количественные шкалы предварительно должны быть сгруппированы в интервалы). На пересечении строки и столбца указывается частота совместного появления fij соответствующих значений двух признаков xi и yj. Сумма частот по строке fi называется маргинальной частотой строки; сумма частот по столбцу fj - маргинальной частотой столбца. Сумма маргинальных частот равна объему выборки n; их распределение представляет собой одномерное распределение переменной, образующей строки или столбцы таблицы.
В таблицах сопряженности могут быть представлены как абсолютные, так и относительные частоты (в долях или процентах). Относительные частоты могут рассчитываться по отношению:
- к маргинальной частоте по строке
- к маргинальной частоте по столбцу
- к объему выборки
Таблицы сопряженности используются для проверки гипотезы о наличии связи между двумя признаками ( Статистическая связь, Критерий "хи-квадрат" ), а также для измерения тесноты связи ( Коэффициент фи, Коэффициент контингенции, Коэффициент Крамера)
Критерий "хи-квадрат" для анализа таблиц сопряженности
Гипотеза H0: переменные x и y независимы. Пусть имеется таблица сопряженности KxL, построенная для переменных x и y:
1 | ... | j | ... | L | |
---|---|---|---|---|---|
1 | |||||
... | |||||
i | nij | ||||
... | |||||
K |
Введем следующие обозначения:
- наблюдаемая частота (i,j)
- ожидаемая частота при H0
Статистика
Условие применимости
Eij<5 не более чем в 20% ячеек n>40
Частный случай K=L=2
| 1 | 2 | |||
---|---|---|---|---|---|
1 | a | b | |||
2 | c | d |
Статистика , где
Примеры задач
Эффективность ПК для поступления на ВМК МГУ