Таблица сопряженности
Материал из MachineLearning.
Строка 9: | Строка 9: | ||
* к объему выборки | * к объему выборки | ||
- | Таблицы сопряженности используются для проверки гипотезы о наличии связи между двумя признаками ( [[Статистическая связь]], [[ | + | Таблицы сопряженности используются для проверки гипотезы о наличии связи между двумя признаками ( [[Статистическая связь]], [[Таблица сопряженности#Критерий "хи-квадрат" для анализа таблиц сопряженности|Критерий "хи-квадрат"]] ), а также для измерения тесноты связи ( [[Коэффициент фи]], [[Коэффициент контингенции]], [[Коэффициент Крамера]]) |
==Критерий "хи-квадрат" для анализа таблиц сопряженности== | ==Критерий "хи-квадрат" для анализа таблиц сопряженности== | ||
Гипотеза H<sub>0</sub>: переменные x и y независимы. | Гипотеза H<sub>0</sub>: переменные x и y независимы. |
Версия 10:37, 9 января 2009
Содержание |
Описание таблиц сопряженности
Таблица сопряженности - средство представления совместного распределения двух переменных, предназначенное для исследования связи между ними. Таблица сопряженности является наиболее универсальным средством изучения статистических связей, так как в ней могут быть представлены переменные с любым уровнем измерения.
Строки таблицы сопряженности соответствуют значениям одной переменной, столбцы - значениям другой переменной (количественные шкалы предварительно должны быть сгруппированы в интервалы). На пересечении строки и столбца указывается частота совместного появления fij соответствующих значений двух признаков xi и yj. Сумма частот по строке fi называется маргинальной частотой строки; сумма частот по столбцу fj - маргинальной частотой столбца. Сумма маргинальных частот равна объему выборки n; их распределение представляет собой одномерное распределение переменной, образующей строки или столбцы таблицы.
В таблицах сопряженности могут быть представлены как абсолютные, так и относительные частоты (в долях или процентах). Относительные частоты могут рассчитываться по отношению:
- к маргинальной частоте по строке
- к маргинальной частоте по столбцу
- к объему выборки
Таблицы сопряженности используются для проверки гипотезы о наличии связи между двумя признаками ( Статистическая связь, Критерий "хи-квадрат" ), а также для измерения тесноты связи ( Коэффициент фи, Коэффициент контингенции, Коэффициент Крамера)
Критерий "хи-квадрат" для анализа таблиц сопряженности
Гипотеза H0: переменные x и y независимы. Пусть имеется таблица сопряженности KxL, построенная для переменных x и y:
1 | ... | j | ... | L | |
---|---|---|---|---|---|
1 | |||||
... | |||||
i | nij | ||||
... | |||||
K |
Введем следующие обозначения:
- наблюдаемая частота (i,j)
- ожидаемая частота при H0
Статистика
Условие применимости
Eij<5 не более чем в 20% ячеек n>40
Частный случай K=L=2
| 1 | 2 | |||
---|---|---|---|---|---|
1 | a | b | |||
2 | c | d |
Статистика , где
Примеры задач
Эффективность ПК для поступления на ВМК МГУ