Коэффициент корреляции Кенделла
Материал из MachineLearning.
(→Описание) |
|||
(13 промежуточных версий не показаны.) | |||
Строка 1: | Строка 1: | ||
{{TOCright}} | {{TOCright}} | ||
- | |||
- | + | '''Коэффициент корреляции Кенделла''' (Kendall tau rank correlation coefficient) — мера линейной связи между случайными величинами. Корреляция Кенделла является [[Ранговая корреляция|ранговой]], то есть для оценки силы связи используются не численные значения, а соответствующие им ранги. Коэффициент инвариантен по отношению к любому монотонному преобразованию шкалы измерения. | |
- | + | ==Описание== | |
- | + | ||
- | + | Заданы две выборки <tex>x = (x_1,\ldots,x_n),\; y = (y_1,\ldots,y_n)</tex>. | |
- | <tex> | + | |
- | + | '''Вычисление корреляции Кенделла:''' | |
- | + | Коэффициент корреляции Кенделла вычисляется по формуле: | |
+ | ::<tex>\tau=1-\frac{4}{n(n-1)}R</tex>, где <tex>R = \sum_{i=1}^{n-1}\sum_{j=i+1}^n\left[ \left[ x_i\ <\ x_j \right] \neq \left[ y_i\ <\ y_j \right] \right]</tex> — количество инверсий, образованных величинами <tex>y_i</tex>, расположенными в порядке возрастания соответствующих <tex>x_i</tex>. | ||
- | + | Коэффициент <tex>\tau</tex> принимает значения из отрезка <tex>[-1;\;1]</tex>. Равенство <tex>\tau=1</tex> указывает на строгую прямую линейную зависимость, <tex>\tau=-1</tex> на обратную. | |
- | + | ||
- | + | '''Обоснование критерия Кенделла:''' | |
- | + | Будем говорить, что пары <tex>(x_i,\; y_i)</tex> и <tex>(x_j,\; y_j)</tex> согласованы, если <tex>x_i\ <\ x_j</tex> и <tex>y_i\ <\ y_j</tex> или <tex>x_i\ >\ x_j</tex> и <tex>y_i\ >\ y_j</tex>, то есть <tex>sign(x_j-x_i)sign(y_j-y_i)=1</tex>. Пусть <tex>S</tex> - число согласованных пар, <tex>R</tex> - число несогласованных пар. Тогда, в предположении, что среди <tex>x_i</tex> и среди <tex>y_i</tex> нет совпадений, превышение согласованности над несогласованностью есть: | |
- | + | ||
- | + | ::<tex>T = S - R = \sum_{i < j}sign(x_j-x_i)sign(y_j-y_i)</tex>. | |
- | + | ||
- | :: | + | |
- | + | Для измерения степени согласия Кенделл предложил следующий коэффициент: | |
- | + | ::<tex>\tau = \frac{T}{max{T}} = \frac{2T}{n(n-1)} = \frac{2(S-R)}{n(n-1)} = 1 - \frac{4}{n(n-1)}R</tex>. | |
- | :: <tex> | + | |
- | ==Связь | + | Таким образом, коэффициент <tex>\tau</tex> (линейно связанный с <tex>R</tex>) можно считать ''мерой неупорядоченности'' второй последовательности относительно первой.<ref>Лагутин М. Б. Наглядная математическая статистика. — 345 с.</ref> |
+ | |||
+ | ==Статистическая проверка наличия корреляции== | ||
+ | |||
+ | [[Изображение:Standard_Normal_Density_-_Double-sided_Critical_Area.png|thumb|Критическая область критерия Кенделла.]] | ||
+ | |||
+ | '''[[Нулевая гипотеза]]''' <tex>H_0</tex>: Выборки <tex>x</tex> и <tex>y</tex> не коррелируют. | ||
+ | |||
+ | '''Статистика критерия:''' <tex>\tau.</tex> | ||
+ | |||
+ | '''Асимптотический критерий''' (при [[уровень значимости|уровне значимости]] <tex>\alpha</tex>): | ||
+ | |||
+ | Рассмотрим центрированную и нормированную статистику Кенделла: | ||
+ | |||
+ | ::<tex>\tilde{\tau} = \frac{\tau}{\sqrt{D_{\tau}}},</tex>, где <tex>D_{\tau}=\frac{2(2n+5)}{9n(n-1)}</tex>. | ||
+ | |||
+ | Нулевая гипотеза отвергается (против альтернативы <tex>H_1</tex> - наличие корреляции), если: | ||
+ | |||
+ | :: <tex> \left|\tilde{\tau}\right| \ge \Phi_{1-\alpha/2} </tex>, где <tex>\Phi_{1-\alpha}</tex> есть <tex>(1-\alpha)</tex>-[[квантиль]] стандартного нормального распределения. | ||
+ | |||
+ | Аппроксимация удовлетворительно работает, начиная с <tex>n\geq 10</tex>.<ref>Кобзарь А. И. Прикладная математическая статистика. — 625 с.</ref> | ||
+ | |||
+ | ==Примеры== | ||
+ | |||
+ | Ниже приведены примеры вычисления корреляций Кенделла и Спирмена. Значения коэффициентов указаны над каждым изображением в виде <tex>(\tau,\ \rho)</tex>, где <tex>\tau</tex> - корреляция Кенделла, <tex>\rho</tex> - Спирмена. Заметно, что в большинстве случаев <tex>\left| \rho \right|\ >\ \left| \tau \right|</tex>. Объяснение этого эффекта приводится [[Коэффициент_корреляции_Кенделла#Связь коэффициентов корреляции Кенделла и Спирмена|ниже]]. | ||
+ | |||
+ | ===Направление линейной зависимости=== | ||
+ | |||
+ | [[Изображение:Fig1.1-c2.png|left|frame|Корреляции Кенделла и Спирмена. Нормальные сгущения.]]<br clear="both" /> | ||
+ | |||
+ | Коэффициенты корреляции реагируют на изменение направления и зашумлённость линейной зависимости между переменными. | ||
+ | |||
+ | ===Наклон линейного тренда=== | ||
+ | |||
+ | [[Изображение:Kendall Spearman 2.png|left|frame|Корреляции Кенделла и Спирмена. Вращающаяся полоса.]]<br clear="both" /> | ||
+ | |||
+ | Коэффициенты корреляции реагируют на изменение направления, но не реагируют на изменение наклона тренда. На первом, четвёртом и седьмом рисунках дисперсия одной из переменных близка к нулю, поэтому не удаётся зафиксировать факт линейной зависимости. | ||
+ | |||
+ | ===Нелинейная зависимость=== | ||
+ | |||
+ | [[Изображение:Kendall Spearman 3.png|left|frame|Корреляции Кенделла и Спирмена. Нелинейная зависимость.]]<br clear="both" /> | ||
+ | |||
+ | Корреляции Кенделла и Спирмена не отражают меры нелинейной зависимости между переменными. | ||
+ | |||
+ | ===Линейная и нелинейная зависимости=== | ||
+ | |||
+ | На каждой из приведённых ниже иллюстраций осуществляется переход от линейной зависимости к нелинейной. Коэффициенты корреляции Кенделла и Спирмена реагируют на это одинаковым образом. | ||
+ | |||
+ | [[Изображение:Kendall Spearman 1.2.png|left|frame|Корреляции Кенделла и Спирмена. Перекрещенные полосы.]]<br clear="both" /> | ||
+ | [[Изображение:Kendall Spearman 1.3.png|left|frame|Корреляции Кенделла и Спирмена. Расширяющаяся полоса.]]<br clear="both" /> | ||
+ | [[Изображение:Kendall Spearman 1.4.png|left|frame|Корреляции Кенделла и Спирмена. Синусоида с переменной амплитудой.]]<br clear="both" /> | ||
+ | |||
+ | По мере смены линейной зависимости нелинейной значения коэффициентов корреляции падают. | ||
+ | |||
+ | ==Связь коэффициентов корреляции Кенделла и [[коэффициент корреляции Пирсона|Пирсона]]== | ||
+ | |||
+ | В случае выборок из нормального распределения коэффициент корреляции Кенделла <tex>\tau</tex> может быть использован для оценки [[коэффициент корреляции Пирсона|коэффициента корреляции Пирсона]] <tex>r</tex> по формуле: | ||
+ | :: <tex>r=sin{\frac{\pi\tau}{2}}</tex>.<ref>Кобзарь А. И. Прикладная математическая статистика. — 625 с.</ref> | ||
+ | |||
+ | ==Связь коэффициентов корреляции Кенделла и [[Коэффициент корреляции Спирмена|Спирмена]]== | ||
Выборкам <tex>x</tex> и <tex>y</tex> соответствуют последовательности рангов: | Выборкам <tex>x</tex> и <tex>y</tex> соответствуют последовательности рангов: | ||
Строка 37: | Строка 89: | ||
::<tex>R_y=(R_{y_1},\ldots,R_{y_n})</tex>, где <tex>R_{y_i}</tex> — ранг <tex>i</tex>-го объекта в [[вариационный ряд|вариационном ряду]] выборки <tex>y</tex>. | ::<tex>R_y=(R_{y_1},\ldots,R_{y_n})</tex>, где <tex>R_{y_i}</tex> — ранг <tex>i</tex>-го объекта в [[вариационный ряд|вариационном ряду]] выборки <tex>y</tex>. | ||
- | Проведем операцию | + | Проведем операцию упорядочивания рангов. |
- | Расположим ряд значений <tex>x_i</tex> в порядке возрастания величины: <tex>x_1\leq x_2\leq\cdots\leq x_n</tex>. Тогда последовательность рангов упорядоченной выборки <tex>x</tex> будет представлять собой последовательность натуральных чисел <tex>1,2,\cdots,n</tex>. Значения <tex>y</tex>, соответствующие значениям <tex>x</tex>, образуют в этом случае некоторую последовательность рангов <tex>T=(T_1,\cdots,T_n)</tex> | + | Расположим ряд значений <tex>x_i</tex> в порядке возрастания величины: <tex>x_1\leq x_2\leq\cdots\leq x_n</tex>. Тогда последовательность рангов упорядоченной выборки <tex>x</tex> будет представлять собой последовательность натуральных чисел <tex>1,2,\cdots,n</tex>. Значения <tex>y</tex>, соответствующие значениям <tex>x</tex>, образуют в этом случае некоторую последовательность рангов <tex>T=(T_1,\cdots,T_n)</tex>: |
- | ::<tex>(R_{x_i},R_{y_i})\rightarrow (i,T_i),\; i=1,\cdots,n</tex> | + | ::<tex>(R_{x_i},\;R_{y_i})\rightarrow^{sort} (i,\;T_i),\; i=1,\cdots,n</tex>. |
- | Коэффициент | + | Коэффициент корреляции Кенделла <tex>\tau</tex> и [[коэффициент корреляции Спирмена]] <tex>\rho</tex> выражаются через ранги <tex>T_i,\; i=1,\cdots,n</tex> следующим образом: |
- | ::<tex>\rho=1-\frac{12}{n^3-n}\sum_{i<j}{(j-i)[T_i>T_j]}</tex> | + | ::<tex>\rho=1-\frac{12}{n^3-n}\sum_{i<j}{(j-i)[T_i\ >\ T_j]};</tex> |
- | ::<tex>\tau=1-\frac{4}{n^2-1}\sum_{i<j}[T_i>T_j]</tex> | + | ::<tex>\tau=1-\frac{4}{n^2-1}\sum_{i<j}[T_i\ >\ T_j];</tex> |
- | + | Заметно, что в случае <tex>\rho</tex> инверсиям придаются дополнительные веса <tex>(j-i)</tex>, таким образом <tex>\rho</tex> сильнее реагирует на несогласие ранжировок, чем <tex>\tau</tex>. Этот эффект проявляется в приведённых выше примерах: в большинстве из них <tex>\left| \rho \right|\ >\ \left| \tau \right|</tex>. | |
- | + | ||
- | + | ||
- | + | '''Утверждение.'''<ref>Лагутин М. Б. Наглядная математическая статистика. — 345-346 с.</ref> Если выборки <tex>x</tex> и <tex>y</tex> не коррелируют (выполняется гипотеза <tex>H_0</tex>), то величины <tex>\rho</tex> и <tex>\tau</tex> сильно закоррелированы. Коэффициент корреляции между ними можно вычислить по формуле: | |
+ | ::<tex>corr(\rho,\;\tau)=\frac{2n+2}{\sqrt{4n^2+10n}}</tex>. | ||
+ | == История == | ||
+ | Критерий был введён в 1938 году известным британским статистиком Морисом Джорджем Кенделлом. | ||
- | + | == Примечания == | |
+ | <references/> | ||
+ | |||
+ | == Литература == | ||
+ | # ''Кобзарь А. И.'' Прикладная математическая статистика. — М.: Физматлит, 2006. — 624-626 с. | ||
+ | # ''Лагутин М. Б.'' Наглядная математическая статистика. В двух томах. — М.: П-центр, 2003. — 345-346 с. | ||
+ | # ''Лапач С. Н., Чубенко А. В., Бабич П. Н.'' Статистика в науке и бизнесе. — Киев: Морион, 2002. — 187-189 с. | ||
+ | |||
+ | ==Ссылки== | ||
+ | *[[Ранговая корреляция]] | ||
+ | *[[Коэффициент корреляции Спирмена]] — другой способ расчёта ранговой корреляции. | ||
+ | *[[Коэффициент корреляции Пирсона]] | ||
+ | *[http://ru.wikipedia.org/wiki/Коэффициент_корреляции Коэффициент корреляции] — статья в русскоязычной Википедии. | ||
+ | *[http://en.wikipedia.org/wiki/Kendall_tau_rank_correlation_coefficient Kendall tau rank correlation coefficient] — статья в англоязычной Википедии. | ||
[[Категория:Прикладная статистика]] | [[Категория:Прикладная статистика]] | ||
[[Категория:Энциклопедия анализа данных]] | [[Категория:Энциклопедия анализа данных]] | ||
+ | [[Категория:Корреляционный анализ|К]] | ||
+ | |||
+ | {{Задание|Василий Ломакин|К. В. Воронцов|31 декабря 2009|Василий Ломакин|Vokov}} |
Текущая версия
|
Коэффициент корреляции Кенделла (Kendall tau rank correlation coefficient) — мера линейной связи между случайными величинами. Корреляция Кенделла является ранговой, то есть для оценки силы связи используются не численные значения, а соответствующие им ранги. Коэффициент инвариантен по отношению к любому монотонному преобразованию шкалы измерения.
Описание
Заданы две выборки .
Вычисление корреляции Кенделла:
Коэффициент корреляции Кенделла вычисляется по формуле:
- , где — количество инверсий, образованных величинами , расположенными в порядке возрастания соответствующих .
Коэффициент принимает значения из отрезка . Равенство указывает на строгую прямую линейную зависимость, на обратную.
Обоснование критерия Кенделла:
Будем говорить, что пары и согласованы, если и или и , то есть . Пусть - число согласованных пар, - число несогласованных пар. Тогда, в предположении, что среди и среди нет совпадений, превышение согласованности над несогласованностью есть:
- .
Для измерения степени согласия Кенделл предложил следующий коэффициент:
- .
Таким образом, коэффициент (линейно связанный с ) можно считать мерой неупорядоченности второй последовательности относительно первой.[1]
Статистическая проверка наличия корреляции
Нулевая гипотеза : Выборки и не коррелируют.
Статистика критерия:
Асимптотический критерий (при уровне значимости ):
Рассмотрим центрированную и нормированную статистику Кенделла:
- , где .
Нулевая гипотеза отвергается (против альтернативы - наличие корреляции), если:
- , где есть -квантиль стандартного нормального распределения.
Аппроксимация удовлетворительно работает, начиная с .[1]
Примеры
Ниже приведены примеры вычисления корреляций Кенделла и Спирмена. Значения коэффициентов указаны над каждым изображением в виде , где - корреляция Кенделла, - Спирмена. Заметно, что в большинстве случаев . Объяснение этого эффекта приводится ниже.
Направление линейной зависимости
Коэффициенты корреляции реагируют на изменение направления и зашумлённость линейной зависимости между переменными.
Наклон линейного тренда
Коэффициенты корреляции реагируют на изменение направления, но не реагируют на изменение наклона тренда. На первом, четвёртом и седьмом рисунках дисперсия одной из переменных близка к нулю, поэтому не удаётся зафиксировать факт линейной зависимости.
Нелинейная зависимость
Корреляции Кенделла и Спирмена не отражают меры нелинейной зависимости между переменными.
Линейная и нелинейная зависимости
На каждой из приведённых ниже иллюстраций осуществляется переход от линейной зависимости к нелинейной. Коэффициенты корреляции Кенделла и Спирмена реагируют на это одинаковым образом.
По мере смены линейной зависимости нелинейной значения коэффициентов корреляции падают.
Связь коэффициентов корреляции Кенделла и Пирсона
В случае выборок из нормального распределения коэффициент корреляции Кенделла может быть использован для оценки коэффициента корреляции Пирсона по формуле:
- .[1]
Связь коэффициентов корреляции Кенделла и Спирмена
Выборкам и соответствуют последовательности рангов:
- , где — ранг -го объекта в вариационном ряду выборки ;
- , где — ранг -го объекта в вариационном ряду выборки .
Проведем операцию упорядочивания рангов.
Расположим ряд значений в порядке возрастания величины: . Тогда последовательность рангов упорядоченной выборки будет представлять собой последовательность натуральных чисел . Значения , соответствующие значениям , образуют в этом случае некоторую последовательность рангов :
- .
Коэффициент корреляции Кенделла и коэффициент корреляции Спирмена выражаются через ранги следующим образом:
Заметно, что в случае инверсиям придаются дополнительные веса , таким образом сильнее реагирует на несогласие ранжировок, чем . Этот эффект проявляется в приведённых выше примерах: в большинстве из них .
Утверждение.[1] Если выборки и не коррелируют (выполняется гипотеза ), то величины и сильно закоррелированы. Коэффициент корреляции между ними можно вычислить по формуле:
- .
История
Критерий был введён в 1938 году известным британским статистиком Морисом Джорджем Кенделлом.
Примечания
Литература
- Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006. — 624-626 с.
- Лагутин М. Б. Наглядная математическая статистика. В двух томах. — М.: П-центр, 2003. — 345-346 с.
- Лапач С. Н., Чубенко А. В., Бабич П. Н. Статистика в науке и бизнесе. — Киев: Морион, 2002. — 187-189 с.
Ссылки
- Ранговая корреляция
- Коэффициент корреляции Спирмена — другой способ расчёта ранговой корреляции.
- Коэффициент корреляции Пирсона
- Коэффициент корреляции — статья в русскоязычной Википедии.
- Kendall tau rank correlation coefficient — статья в англоязычной Википедии.
Данная статья является непроверенным учебным заданием.
До указанного срока статья не должна редактироваться другими участниками проекта MachineLearning.ru. По его окончании любой участник вправе исправить данную статью по своему усмотрению и удалить данное предупреждение, выводимое с помощью шаблона {{Задание}}. См. также методические указания по использованию Ресурса MachineLearning.ru в учебном процессе. |