Таблица сопряженности
Материал из MachineLearning.
м |
|||
(1 промежуточная версия не показана) | |||
Строка 58: | Строка 58: | ||
====Примеры задач==== | ====Примеры задач==== | ||
[[Эффективность ПК для поступления на ВМК МГУ]] | [[Эффективность ПК для поступления на ВМК МГУ]] | ||
- | == | + | ==Литература== |
- | # | + | # Лапач С. Н. , Чубенко А. В., Бабич П. Н. Статистика в науке и бизнесе. — Киев: Морион, 2002. |
+ | # Г. Аптон. Анализ таблиц сопряженности | ||
+ | [[Категория:Энциклопедия анализа данных]] | ||
+ | [[Категория:Анализ таблиц сопряженности]] |
Текущая версия
Содержание |
Описание таблиц сопряженности
Таблица сопряженности - средство представления совместного распределения двух переменных, предназначенное для исследования связи между ними. Таблица сопряженности является наиболее универсальным средством изучения статистических связей, так как в ней могут быть представлены переменные с любым уровнем измерения.
Строки таблицы сопряженности соответствуют значениям одной переменной, столбцы - значениям другой переменной (количественные шкалы предварительно должны быть сгруппированы в интервалы). На пересечении строки и столбца указывается частота совместного появления fij соответствующих значений двух признаков xi и yj. Сумма частот по строке fi называется маргинальной частотой строки; сумма частот по столбцу fj - маргинальной частотой столбца. Сумма маргинальных частот равна объему выборки n; их распределение представляет собой одномерное распределение переменной, образующей строки или столбцы таблицы.
В таблицах сопряженности могут быть представлены как абсолютные, так и относительные частоты (в долях или процентах). Относительные частоты могут рассчитываться по отношению:
- к маргинальной частоте по строке
- к маргинальной частоте по столбцу
- к объему выборки
Таблицы сопряженности используются для проверки гипотезы о наличии связи между двумя признаками ( Статистическая связь, Критерий "хи-квадрат" ), а также для измерения тесноты связи ( Коэффициент фи, Коэффициент контингенции, Коэффициент Крамера)
Критерий "хи-квадрат" для анализа таблиц сопряженности
Гипотеза H0: переменные x и y независимы. Пусть имеется таблица сопряженности KxL, построенная для переменных x и y:
1 | ... | j | ... | L | |
---|---|---|---|---|---|
1 | |||||
... | |||||
i | nij | ||||
... | |||||
K |
Введем следующие обозначения:
- наблюдаемая частота (i,j)
- ожидаемая частота при H0
Статистика
Условие применимости
Eij<5 не более чем в 20% ячеек n>40
Частный случай K=L=2
| 1 | 2 | |||
---|---|---|---|---|---|
1 | a | b | |||
2 | c | d |
Статистика , где
Примеры задач
Эффективность ПК для поступления на ВМК МГУ
Литература
- Лапач С. Н. , Чубенко А. В., Бабич П. Н. Статистика в науке и бизнесе. — Киев: Морион, 2002.
- Г. Аптон. Анализ таблиц сопряженности