Корреляция Мэтьюса
Материал из MachineLearning.
м |
|||
(1 промежуточная версия не показана) | |||
Строка 1: | Строка 1: | ||
- | Корреляция Мэтьюса используется в машинном обучении как мера качества для бинарной классификации. Она может быть использована, если размеры классов сильно различаются. Принимает значение [-1, 1]. | + | '''Корреляция Мэтьюса''' используется в машинном обучении как мера качества для бинарной классификации. Она может быть использована, если размеры классов сильно различаются. Принимает значение на интервале [-1, 1]. Значение 1 соответствует идеальному предсказанию, 0 — ситуации случайного предсказания, -1 — полностью противоположному предсказанию. В литературе так же известна как <tex>\phi</tex>–коэффициент. |
== Определение == | == Определение == | ||
- | Пусть <tex> D </tex> | + | Пусть <tex>D</tex> — бинарный вектор, соответствующий истинной классификации, а <tex>M</tex> — предсказание некоторого алгоритма. Обозначим за <tex> \overline{M} </tex> отрицание бинарного вектора. Составим следующую таблицу, в ячейках которой расположено скалярное произведение векторов. |
- | {| class="wikitable" | + | ::{| class="wikitable" |
|- | |- | ||
! | ! | ||
Строка 22: | Строка 22: | ||
Тогда корреляция Мэтьюса определяется следующей формулой: | Тогда корреляция Мэтьюса определяется следующей формулой: | ||
- | <tex> C(D,M) = \frac{TP \times TN - FP \times FN}{\sqrt{(TP + FT)(TP + FP)(TN + FP)(TN + FN) } } </tex>. | + | ::<tex> C(D,M) = \frac{TP \times TN - FP \times FN}{\sqrt{(TP + FT)(TP + FP)(TN + FP)(TN + FN) } } </tex>. |
- | Можно записать формулу в более удобном виде, если ввести ряд обозначений | + | Можно записать формулу в более удобном виде, если ввести ряд обозначений: |
- | <tex> N = TN + TP + FN + FP </tex> | + | ::<tex> N = TN + TP + FN + FP </tex>, |
- | <tex> S = \frac{ TP + FN }{N} </tex> | + | ::<tex> S = \frac{ TP + FN }{N} </tex>, |
- | <tex> P = \frac{ TP + FP }{N} </tex> | + | ::<tex> P = \frac{ TP + FP }{N} </tex>, |
- | <tex> C(D,M) = \frac {TP/N - S \times P} {\sqrt{PS(1 - S) (1 - P)}} </tex> | + | ::<tex> C(D,M) = \frac {TP/N - S \times P} {\sqrt{PS(1 - S) (1 - P)}} </tex>. |
- | == Связь | + | == Связь со статистикой хи-квадрат == |
- | Корреляция Мэтьюса связана со статистикой хи-квадрат: | + | Корреляция Мэтьюса связана со статистикой хи-квадрат для [[Таблица сопряженности|таблицы сопряжённости]] <tex>2\times2</tex>: |
- | <tex> C^2(D,M)= \frac{\chi^2}{N} </tex> | + | ::<tex> C^2(D,M)= \frac{\chi^2}{N} </tex>. |
== Пример == | == Пример == | ||
+ | Пусть истинный вектор классификации [0, 0, 1, 1, 1], а предсказанный некоторым алгоритмом [1, 0, 1, 1, 0]. <tex>TP = 2,\; FN = 2,\; FP = 1,\; TN = 1.</tex> Тогда <tex> C(D,M) = 0 </tex>. | ||
- | + | == Ссылки == | |
+ | * Matthews, B.W. (1975). Comparison of the predicted and observed secondary structure of T4 phage lysozyme. Biochimica et Biophysica Acta (BBA) - Protein Structure, 405(2), 442-451. http://dx.doi.org/10.1016/0005-2795(75)90109-9. | ||
+ | * Baldi, P., Brunak, S., Chauvin, Y., Andersen, C.A.F., Nielsen, H. (2000). Assessing the accuracy of prediction algorithms for classification: an overview. Bioinformatics, 16(5), 412-424. http://dx.doi.org/10.1093/bioinformatics/16.5.412. | ||
+ | * [http://www.mathworks.com/matlabcentral/fileexchange/44064-matthews-correlation-coefficient Реализация в Matlab]. | ||
+ | * [http://cran.r-project.org/web/packages/ROCR/index.html Реализация в R] (пакет ROCR, функция perfomance). | ||
- | + | [[Категория:Корреляционный анализ]] | |
- | + | [[Категория:Прикладная статистика]] | |
- | + | [[Категория:Энциклопедия анализа данных]] | |
- | + | ||
- | + | ||
- | + | ||
- | + |
Текущая версия
Корреляция Мэтьюса используется в машинном обучении как мера качества для бинарной классификации. Она может быть использована, если размеры классов сильно различаются. Принимает значение на интервале [-1, 1]. Значение 1 соответствует идеальному предсказанию, 0 — ситуации случайного предсказания, -1 — полностью противоположному предсказанию. В литературе так же известна как –коэффициент.
Содержание |
Определение
Пусть — бинарный вектор, соответствующий истинной классификации, а — предсказание некоторого алгоритма. Обозначим за отрицание бинарного вектора. Составим следующую таблицу, в ячейках которой расположено скалярное произведение векторов.
TP FN FP TN
Это соответвует классическому представлению true positive, false negative, false positive, true negative в результатах классификации [1].
Тогда корреляция Мэтьюса определяется следующей формулой:
- .
Можно записать формулу в более удобном виде, если ввести ряд обозначений:
- ,
- ,
- ,
- .
Связь со статистикой хи-квадрат
Корреляция Мэтьюса связана со статистикой хи-квадрат для таблицы сопряжённости :
- .
Пример
Пусть истинный вектор классификации [0, 0, 1, 1, 1], а предсказанный некоторым алгоритмом [1, 0, 1, 1, 0]. Тогда .
Ссылки
- Matthews, B.W. (1975). Comparison of the predicted and observed secondary structure of T4 phage lysozyme. Biochimica et Biophysica Acta (BBA) - Protein Structure, 405(2), 442-451. http://dx.doi.org/10.1016/0005-2795(75)90109-9.
- Baldi, P., Brunak, S., Chauvin, Y., Andersen, C.A.F., Nielsen, H. (2000). Assessing the accuracy of prediction algorithms for classification: an overview. Bioinformatics, 16(5), 412-424. http://dx.doi.org/10.1093/bioinformatics/16.5.412.
- Реализация в Matlab.
- Реализация в R (пакет ROCR, функция perfomance).