Частная корреляция

Материал из MachineLearning.

Версия от 16:41, 3 января 2010; Василий Ломакин (Обсуждение | вклад)
(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)
Перейти к: навигация, поиск

Содержание

Если удалось установить тесную зависимость между двумя исследуемыми величинами, отсюда ещё непосредственно не следует их причинная взаимообусловленность. Из причинной связи величин следует стохастическая связь, из стохастической связи не всегда следует причинная.

За счет эффектов одновременного влияния неучтенных факторов на исследуемые переменные может искажаться смысл истинной связи между переменными. Например, подсчеты приводят к положительному значению коэффициента корреляции между парой случайных величин, в то время как истинная связь между ними имеет отрицательный смысл. Такую корреляцию между двумя переменными часто называют «ложной». Более детально подобные ситуации — обнаружение и исключение «общих причинных факторов», расчет «очищенных» или частных коэффициентов корреляции — исследуют методами многомерного корреляционного анализа.

Примеры

Пример 1. Исследовалась зависимость рождаемости в небольших городах от количества аистов в них. Коэффициент корреляции Пирсона r_{xy} оказался близок к 0.8. Наличие стохастической связи в этом случае не обусловленно существованием причинной связи.

Пример 2. При анализе большого числа наблюдений, относящихся к отливке труб на сталелитейных заводах, была установлена положительная корреляционная связь между временем плавки и процентом забракованных труб. Дать какое-либо причинное истолкование этой стохастической связи было невозможно. Спустя несколько лет обнаружили, что большая продолжительность плавки всегда была связана с использованием сырья специального состава. Этот вид сырья приводил одновременно к длительному времени плавки и большому проценту брака, хотя оба эти фактора взаимно независимы. таким образом, высокий коэффициент корреляции между продолжительностью плавки и процентом забракованных труб полностью обуславливался влиянием третьего, не учтенного при исследовании фактора — характеристики качества сырья.

Определение

Исключить влияние третьей переменной позволяет частный коэффициент корреляции. Частным коэффициентом корреляции между случайными величинами X и Y при исключении влияния случайной величины Z называется

r_{XY|Z}=\frac{r_{XY}-r_{XZ}r_{YZ}}{\sqrt{(1-r_{XZ}^2)(1-r_{YZ}^2)}},

где r_{XY}коэффициент корреляции Пирсона между случайными величинами X и Y.


Ранговый коэффициент корреляции Кенделла \tau (в отличие от коэффициента Спирмена \rho) переносится на случай частной корреляции с помощью аналогичной формулы:

<tex>\tau_{XY|Z}=\frac{\tau_{XY}-\tau_{XZ}\tau_{YZ}}{\sqrt{(1-\tau_{XZ}^2)(1-\tau_{YZ}^2)}},

де \tau_{XY}коэффициент корреляции Кенделла между случайными величинами X и Y.

Литература

  1. Лагутин М. Б. Наглядная математическая статистика. В двух томах. — М.: П-центр, 2003

См. также

Ссылки


Статья в настоящий момент дорабатывается.
Tsurko Varvara 22:00, 17 ноября 2008 (MSK)


Личные инструменты