Таблица сопряженности
Материал из MachineLearning.
Строка 60: | Строка 60: | ||
==Смотри также== | ==Смотри также== | ||
# [[Статистический анализ данных (курс лекций, К.В.Воронцов)/2008]] | # [[Статистический анализ данных (курс лекций, К.В.Воронцов)/2008]] | ||
+ | ==Литература== | ||
+ | # Лапач С. Н. , Чубенко А. В., Бабич П. Н. Статистика в науке и бизнесе. — Киев: Морион, 2002. | ||
+ | # Г. Аптон. Анализ таблиц сопряженности | ||
+ | [[Категория:Энциклопедия анализа данных]] | ||
+ | [[Категория:Анализ таблиц сопряженности]] |
Версия 11:16, 10 января 2009
Содержание |
Описание таблиц сопряженности
Таблица сопряженности - средство представления совместного распределения двух переменных, предназначенное для исследования связи между ними. Таблица сопряженности является наиболее универсальным средством изучения статистических связей, так как в ней могут быть представлены переменные с любым уровнем измерения.
Строки таблицы сопряженности соответствуют значениям одной переменной, столбцы - значениям другой переменной (количественные шкалы предварительно должны быть сгруппированы в интервалы). На пересечении строки и столбца указывается частота совместного появления fij соответствующих значений двух признаков xi и yj. Сумма частот по строке fi называется маргинальной частотой строки; сумма частот по столбцу fj - маргинальной частотой столбца. Сумма маргинальных частот равна объему выборки n; их распределение представляет собой одномерное распределение переменной, образующей строки или столбцы таблицы.
В таблицах сопряженности могут быть представлены как абсолютные, так и относительные частоты (в долях или процентах). Относительные частоты могут рассчитываться по отношению:
- к маргинальной частоте по строке
- к маргинальной частоте по столбцу
- к объему выборки
Таблицы сопряженности используются для проверки гипотезы о наличии связи между двумя признаками ( Статистическая связь, Критерий "хи-квадрат" ), а также для измерения тесноты связи ( Коэффициент фи, Коэффициент контингенции, Коэффициент Крамера)
Критерий "хи-квадрат" для анализа таблиц сопряженности
Гипотеза H0: переменные x и y независимы. Пусть имеется таблица сопряженности KxL, построенная для переменных x и y:
1 | ... | j | ... | L | |
---|---|---|---|---|---|
1 | |||||
... | |||||
i | nij | ||||
... | |||||
K |
Введем следующие обозначения:
- наблюдаемая частота (i,j)
- ожидаемая частота при H0
Статистика
Условие применимости
Eij<5 не более чем в 20% ячеек n>40
Частный случай K=L=2
| 1 | 2 | |||
---|---|---|---|---|---|
1 | a | b | |||
2 | c | d |
Статистика , где
Примеры задач
Эффективность ПК для поступления на ВМК МГУ
Смотри также
Литература
- Лапач С. Н. , Чубенко А. В., Бабич П. Н. Статистика в науке и бизнесе. — Киев: Морион, 2002.
- Г. Аптон. Анализ таблиц сопряженности