Кривая ошибок

Материал из MachineLearning.

Версия от 18:19, 19 января 2010; Osa (Обсуждение | вклад)

(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)

Кривая ошибок или ROC-кривая – часто применяемый способ представления характеристик качества бинарного классификатора.

Содержание

1 Кривая ошибок в задаче классификации
2 TPR и FPR
3 Алгоритм построения RoC-кривой
4 Функционал качества
5 См. также
6 Ссылки

Кривая ошибок в задаче классификации

Рассмотрим задачу логистической регрессии в случае двух классов. Традиционно, один из этих классов будем называть классом «с положительными исходами», другой - «с отрицательными исходами» и обозначим множество классов через $Y=\{-1,+1\}$ . Рассмотрим линейный классификатор для указанной задачи: $a(x) = sign (f(x,w) - w_0)$ .

Параметр $w_0$ полагается равным $\frac{\lambda_{-1}}{\lambda_{+1}}$ , где $\lambda_y$ – штраф за ошибку на объекте класса $y$ , $y \in \{-1, +1\}$ . Эти параметры выбираются из эмперических соображений и зависят от задачи.

Нетрудно заметить, что в задаче существенны не сами параметры $\lambda_y$ , а их отношение: $\frac{\lambda_{-1}}{\lambda_{+1}}$ .

RoC-кривая является распространённым способом оценки качества алгоритма, вне зависимости от выбора цен ошибок.

TPR и FPR

Рассмотрим два следующих функционала:

1. False Positive Rate доля объектов выборки $X^l$ ошибочно отнесённых алгоритмом $a$ к классу {+1}:

$FPR(a,X^l)=\frac{\sum_{i=1}^l [a(x_i) = +1][y_i = -1]}{\sum_{i=1}^l [y_i = -1]}$

2. True Positive Rate доля объектов выборки $X^l$ правильно отнесённых алгоритмом $a$ к классу {+1}:

$TPR(a,X^l)=\frac{\sum_{i=1}^l [a(x_i) = +1][y_i = +1]}{\sum_{i=1}^l [y_i = +1]}$

Подробнее об этих функционалах можно прочесть здесь.

Рис.1. «Случайное гадание»

Рис.2. Хороший случай

ROC-кривая показывает зависимость количества верно классифицированных положительных объектов из $X^l$ (по оси Y) от количества неверно классифицированных отрицательных объектов из $X^l$ (по оси X).

На рисунке 1 приведена RoC-кривая, соответствующая алгоритму «случайного гадания», когда классификация объекта происходит методом «подбрасывания монетки» с вероятностью исходов $\frac12$ . На рисунке 2 изображён общий случай.

Визуально, чем выше лежит кривая, тем лучше характеристики качества алгоритма.

Алгоритм построения RoC-кривой

На основе обучающей выборки $X^l$ можно очень эффективно аппроксимировать RoC-кривую для заданного классификатора. Ниже приведён алгоритм, строящий эту зависимость.

Входные данные

Обучающая выборка $X^l$
$f(x_i,w), \ i=\overline{1,l}$ — вероятность того, что $x_i$ принадлежит классу {+1}.

Результат

$\{(FPR_i, TPR_i)\}_{i=0}^l$ — последовательность из $(l+1)$ точек на координатной плоскости из области $[0,1] \times [0,1]$ , аппроксимирующая RoC-кривую по обучающей выборке $X^l$ .

Описание алгоритма

1. Вычислим количество представителей классов {+1} и {-1} в обучающей выборке:
   ;
2. Упорядочим выборку  по убыванию значения ;
3. Начальная точка кривой — ;
4. Повторять для всех :
     Если , то сместиться вправо:
        ;
     иначе сместиться вверх:
        ;

Функционал качества

В качестве функционала качества, инвариантного относительно выбора цен ошибок, используют площадь под RoC-кривой. Эту величину также называют AUC (Area Under Curve). Чем больше значение AUC, тем «лучше» алгоритм. Данный показатель предназначен скорее для сравнительного анализа нескольких моделей, не предоставляя полезной информации о конкретном классификаторе.

Намного большую информацию о ценности бинарного классификатора несут в себе такие показатели, как чувствительность и специфичность:

Рис. 3. Чувствительность и специфичность алгоритма на RoC-кривой

Чувствительность алгоритма — совпадает с True Positive Rate $(TPR)$ , изменяется в интервале $[0,1]$ ;
Специфичность алгоритма — вводится, как $(1-FPR)$ , и также изменяется в интервале $[0,1]$ .

Идеальный случай — когда значения показателей чувствительности и специфичности близки к 1, однако на практике это достигается редко.

Модель с высокой чувствительностью часто дает истинный результат при наличии положительного исхода (обнаруживает положительные примеры). Наоборот, модель с высокой специфичностью чаще дает истинный результат при наличии отрицательного исхода (обнаруживает отрицательные примеры). Если рассуждать в терминах медицины – задачи диагностики заболевания, где модель классификации пациентов на больных и здоровых называется диагностическим тестом, то получится следующее:

Чувствительный диагностический тест проявляется в гипердиагностике – максимальном предотвращении пропуска больных;
Специфичный диагностический тест диагностирует только доподлинно больных. Это важно в случае, когда, например, лечение больного связано с серьезными побочными эффектами и гипердиагностика пациентов нежелательна.

См. также

Ссылки

Данная статья является непроверенным учебным заданием.

Студент: Участник:osa

Преподаватель: Участник:Константин Воронцов

Срок: 21 января 2010

До указанного срока статья не должна редактироваться другими участниками проекта MachineLearning.ru. По его окончании любой участник вправе исправить данную статью по своему усмотрению и удалить данное предупреждение, выводимое с помощью шаблона {{Задание}}.

См. также методические указания по использованию Ресурса MachineLearning.ru в учебном процессе.

Источник — «http://machinelearning.ru/wiki/index.php?title=%D0%9A%D1%80%D0%B8%D0%B2%D0%B0%D1%8F_%D0%BE%D1%88%D0%B8%D0%B1%D0%BE%D0%BA»

Категории: Классификация | Непроверенные учебные задания