Кривая ошибок

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Новая: {{Задание|osa|Константин Воронцов|25 января 2010}})
(Первое приближение статьи)
Строка 1: Строка 1:
{{Задание|osa|Константин Воронцов|25 января 2010}}
{{Задание|osa|Константин Воронцов|25 января 2010}}
 +
 +
'''Кривая ошибок''' или '''ROC-кривая''' – часто применяемый способ представления результатов двухклассовой (бинарной) [[классификация|классификации]].
 +
 +
== Кривая ошибок в задаче классификации ==
 +
 +
Рассмотрим задачу [[Логистическая регрессия|логистической регрессии]] в случае двух классов. Традиционно, один из этих классов будем называть классом «с положительными исходами», другой - «с отрицательными исходами» и обозначим множество классов через <tex>Y=\{-1,+1\}</tex>. Рассмотрим [[линейный классификатор]] для указанной задачи: <tex>a(x) = sign (f(x,w) - w_0) </tex>.
 +
 +
Параметр <tex>w_0</tex> полагается равным <tex>\frac{\lambda_{-1}}{\lambda_{+1}}</tex>, где <tex>\lambda_y</tex> – штраф за ошибку на объекте класса <tex>y</tex>, <tex>y \in \{-1, +1\}</tex>. Эти параметры выбираются из эмперических соображений и зависят от задачи.
 +
 +
Нетрудно заметить, что в задаче существенны не сами параметры <tex>\lambda_y</tex>, а их отношение: <tex>\frac{\lambda_{-1}}{\lambda_{+1}}</tex>. Поэтому при решении задачи логично использовать функционал, инвариантный относительно данного отношения.
 +
 +
Рассмотрим два следующих функционала:
 +
 +
1. False Positive Rate (<tex>FPR(a,X^l)</tex>)– доля объектов выборки <tex>X^l</tex> ложно положительно классификацированных алгоритмом <tex>a</tex>.
 +
 +
2. True Positive Rate (<tex>TPR(a,X^l)</tex>) – доля правильно положительно классифицированных объектов.
 +
 +
ROC-кривая показывает зависимость количества верно классифицированных положительных объектов (по оси Y) от количества неверно классифицированных отрицательных объектов (по оси X).

Версия 00:39, 3 января 2010

Данная статья является непроверенным учебным заданием.
Студент: Участник:osa
Преподаватель: Участник:Константин Воронцов
Срок: 25 января 2010

До указанного срока статья не должна редактироваться другими участниками проекта MachineLearning.ru. По его окончании любой участник вправе исправить данную статью по своему усмотрению и удалить данное предупреждение, выводимое с помощью шаблона {{Задание}}.

См. также методические указания по использованию Ресурса MachineLearning.ru в учебном процессе.


Кривая ошибок или ROC-кривая – часто применяемый способ представления результатов двухклассовой (бинарной) классификации.

Кривая ошибок в задаче классификации

Рассмотрим задачу логистической регрессии в случае двух классов. Традиционно, один из этих классов будем называть классом «с положительными исходами», другой - «с отрицательными исходами» и обозначим множество классов через Y=\{-1,+1\}. Рассмотрим линейный классификатор для указанной задачи: a(x) = sign (f(x,w) - w_0) .

Параметр w_0 полагается равным \frac{\lambda_{-1}}{\lambda_{+1}}, где \lambda_y – штраф за ошибку на объекте класса y, y \in \{-1, +1\}. Эти параметры выбираются из эмперических соображений и зависят от задачи.

Нетрудно заметить, что в задаче существенны не сами параметры \lambda_y, а их отношение: \frac{\lambda_{-1}}{\lambda_{+1}}. Поэтому при решении задачи логично использовать функционал, инвариантный относительно данного отношения.

Рассмотрим два следующих функционала:

1. False Positive Rate (FPR(a,X^l))– доля объектов выборки X^l ложно положительно классификацированных алгоритмом a.

2. True Positive Rate (TPR(a,X^l)) – доля правильно положительно классифицированных объектов.

ROC-кривая показывает зависимость количества верно классифицированных положительных объектов (по оси Y) от количества неверно классифицированных отрицательных объектов (по оси X).

Личные инструменты