Кривая ошибок
Материал из MachineLearning.
(Новая: {{Задание|osa|Константин Воронцов|25 января 2010}}) |
(Первое приближение статьи) |
||
Строка 1: | Строка 1: | ||
{{Задание|osa|Константин Воронцов|25 января 2010}} | {{Задание|osa|Константин Воронцов|25 января 2010}} | ||
+ | |||
+ | '''Кривая ошибок''' или '''ROC-кривая''' – часто применяемый способ представления результатов двухклассовой (бинарной) [[классификация|классификации]]. | ||
+ | |||
+ | == Кривая ошибок в задаче классификации == | ||
+ | |||
+ | Рассмотрим задачу [[Логистическая регрессия|логистической регрессии]] в случае двух классов. Традиционно, один из этих классов будем называть классом «с положительными исходами», другой - «с отрицательными исходами» и обозначим множество классов через <tex>Y=\{-1,+1\}</tex>. Рассмотрим [[линейный классификатор]] для указанной задачи: <tex>a(x) = sign (f(x,w) - w_0) </tex>. | ||
+ | |||
+ | Параметр <tex>w_0</tex> полагается равным <tex>\frac{\lambda_{-1}}{\lambda_{+1}}</tex>, где <tex>\lambda_y</tex> – штраф за ошибку на объекте класса <tex>y</tex>, <tex>y \in \{-1, +1\}</tex>. Эти параметры выбираются из эмперических соображений и зависят от задачи. | ||
+ | |||
+ | Нетрудно заметить, что в задаче существенны не сами параметры <tex>\lambda_y</tex>, а их отношение: <tex>\frac{\lambda_{-1}}{\lambda_{+1}}</tex>. Поэтому при решении задачи логично использовать функционал, инвариантный относительно данного отношения. | ||
+ | |||
+ | Рассмотрим два следующих функционала: | ||
+ | |||
+ | 1. False Positive Rate (<tex>FPR(a,X^l)</tex>)– доля объектов выборки <tex>X^l</tex> ложно положительно классификацированных алгоритмом <tex>a</tex>. | ||
+ | |||
+ | 2. True Positive Rate (<tex>TPR(a,X^l)</tex>) – доля правильно положительно классифицированных объектов. | ||
+ | |||
+ | ROC-кривая показывает зависимость количества верно классифицированных положительных объектов (по оси Y) от количества неверно классифицированных отрицательных объектов (по оси X). |
Версия 00:39, 3 января 2010
Данная статья является непроверенным учебным заданием.
До указанного срока статья не должна редактироваться другими участниками проекта MachineLearning.ru. По его окончании любой участник вправе исправить данную статью по своему усмотрению и удалить данное предупреждение, выводимое с помощью шаблона {{Задание}}. См. также методические указания по использованию Ресурса MachineLearning.ru в учебном процессе. |
Кривая ошибок или ROC-кривая – часто применяемый способ представления результатов двухклассовой (бинарной) классификации.
Кривая ошибок в задаче классификации
Рассмотрим задачу логистической регрессии в случае двух классов. Традиционно, один из этих классов будем называть классом «с положительными исходами», другой - «с отрицательными исходами» и обозначим множество классов через . Рассмотрим линейный классификатор для указанной задачи: .
Параметр полагается равным , где – штраф за ошибку на объекте класса , . Эти параметры выбираются из эмперических соображений и зависят от задачи.
Нетрудно заметить, что в задаче существенны не сами параметры , а их отношение: . Поэтому при решении задачи логично использовать функционал, инвариантный относительно данного отношения.
Рассмотрим два следующих функционала:
1. False Positive Rate ()– доля объектов выборки ложно положительно классификацированных алгоритмом .
2. True Positive Rate () – доля правильно положительно классифицированных объектов.
ROC-кривая показывает зависимость количества верно классифицированных положительных объектов (по оси Y) от количества неверно классифицированных отрицательных объектов (по оси X).