Корреляция Мэтьюса

Материал из MachineLearning.

(Различия между версиями)

Версия 00:01, 3 декабря 2013

Корреляция Мэтьюса используется в машинном обучении как мера качества для бинарной классификации. Она может быть использована, если размеры классов сильно различаются. Принимает значение [-1, 1]. Результат 1 соответствует идеальному предсказанию, 0 - ситуации случайного предсказания, -1 - полностью противоположному предсказанию. В литературе так же известна как $\phi$ -коэффициент.

Определение

Пусть $D$ - бинарный вектор, соответствующий истинной классификации, а $M$ - предсказание некоторого алгоритма. Обозначим за $\overline{M}$ отрицание бинарного вектора. Составим следующую таблицу, в ячейках которой расположено скалярное произведение векторов.

	$M$	$\overline{M}$
$D$	TP	FN
$\overline{D}$	FP	TN

Это соответвует классическому представлению true positive, false negative, false positive, true negative в результатах классификации [1].

Тогда корреляция Мэтьюса определяется следующей формулой:

$C(D,M) = \frac{TP \times TN - FP \times FN}{\sqrt{(TP + FT)(TP + FP)(TN + FP)(TN + FN) } }$ .

Можно записать формулу в более удобном виде, если ввести ряд обозначений.

$N = TN + TP + FN + FP$

$S = \frac{ TP + FN }{N}$

$P = \frac{ TP + FP }{N}$

$C(D,M) = \frac {TP/N - S \times P} {\sqrt{PS(1 - S) (1 - P)}}$

Связь с хи-квадрат

Корреляция Мэтьюса связана со статистикой хи-квадрат:

$C^2(D,M)= \frac{\chi^2}{N}$

Пример

Пусть истинный вектор классификации [0, 0, 1, 1, 1], а предсказанный некоторым алгоритмом [1, 0, 1, 1, 0]. $TP = 2, FN = 2, FP = 1, TN = 1.$ Тогда $C(D,M) = 0$ .

Источники

Первый раз иформация появилась в статье "Comparison of the predicted and observed secondary structure of T4 phage lysozyme" в журнале "Biochim. Biophys. Acta 1975" , автор Matthews.

Определение: Assessing the accuracy of prediction algorithms for classification: an overview.

Реализации: Matlab R (phi)

Источник — «http://machinelearning.ru/wiki/index.php?title=%D0%9A%D0%BE%D1%80%D1%80%D0%B5%D0%BB%D1%8F%D1%86%D0%B8%D1%8F_%D0%9C%D1%8D%D1%82%D1%8C%D1%8E%D1%81%D0%B0»

@@ Строка 1: / Строка 1: @@
 Корреляция Мэтьюса используется в машинном обучении как мера качества для бинарной классификации. Она может быть использована, если размеры классов сильно различаются. Принимает значение [-1, 1]. Результат 1  соответствует идеальному предсказанию, 0 - ситуации случайного предсказания, -1 - полностью противоположному предсказанию. В литературе так же известна как <tex> \phi </tex>-коэффициент.
+== Определение ==
 Пусть  <tex> D </tex> - бинарный вектор, соответствующий истинной классификации, а   <tex> M </tex> - предсказание некоторого алгоритма. Обозначим за <tex> \overline{M} </tex> отрицание бинарного вектора.  Составим следующую таблицу, в ячейках которой расположено скалярное произведение векторов.
@@ Строка 16: / Строка 18: @@
 | TN
 |}
-Это соответвует классическому представлению true positive, false negative, false positive, true negative в результатах классификации.
+Это соответвует классическому представлению true positive, false negative, false positive, true negative в результатах классификации [http://en.wikipedia.org/wiki/Template:SensSpecPPVNPV].
 Тогда корреляция Мэтьюса определяется следующей формулой:
@@ Строка 31: / Строка 33: @@
 <tex>  C(D,M) = \frac {TP/N - S \times P} {\sqrt{PS(1 - S) (1 - P)}} </tex>
+== Связь с хи-квадрат ==
 Корреляция Мэтьюса связана со статистикой хи-квадрат:
@@ Строка 36: / Строка 40: @@
 <tex> C^2(D,M)= \frac{\chi^2}{N} </tex>
-Пример: пусть истинный вектор классификации [0, 0, 1, 1, 1], а предсказанный некоторым алгоритмом [1, 0, 1, 1, 0]. <tex>TP = 2, FN = 2, FP = 1, TN = 1.</tex> Тогда <tex> C(D,M) = 0 </tex>.
+== Пример ==
+Пусть истинный вектор классификации [0, 0, 1, 1, 1], а предсказанный некоторым алгоритмом [1, 0, 1, 1, 0]. <tex>TP = 2, FN = 2, FP = 1, TN = 1.</tex> Тогда <tex> C(D,M) = 0 </tex>.
+== Источники ==
 Первый раз иформация появилась  в статье "Comparison of the predicted and observed secondary structure of T4 phage lysozyme" в журнале "Biochim. Biophys. Acta 1975" , автор Matthews.
-Источник: [http://bioinformatics.oxfordjournals.org/content/16/5/412.full.pdf+html  Assessing the accuracy of prediction algorithms for classification: an overview.]
+Определение: [http://bioinformatics.oxfordjournals.org/content/16/5/412.full.pdf+html  Assessing the accuracy of prediction algorithms for classification: an overview.]
 Реализации: [http://www.mathworks.com/matlabcentral/fileexchange/44064-matthews-correlation-coefficient Matlab] [http://rocr.bioinf.mpi-sb.mpg.de R (phi)]

Корреляция Мэтьюса

Материал из MachineLearning.

Версия 00:01, 3 декабря 2013

Содержание

Определение

Связь с хи-квадрат

Пример

Источники

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты