Обсуждение:Задача предсказания отклика клиентов ОТП Банка (конкурс)

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Новая: Задача представляется интересной и очень удачной в качестве предмета для конкурса. Только есть неко...)
Текущая версия (20:24, 26 августа 2011) (править) (отменить)
м (Вроде бы несоответствие: Новая тема)
 
(2 промежуточные версии не показаны)
Строка 2: Строка 2:
Только есть некоторая неоднозначность в критерии оценивания результата, т.е. в вычислении площади под ROC-кривой.
Только есть некоторая неоднозначность в критерии оценивания результата, т.е. в вычислении площади под ROC-кривой.
 +
Поскольку ROC-"кривая" - это на самом деле дискретный набор точек, для вычисления площади под ней нужна аппроксимация (интерполяция).
 +
Здесь могут быть варианты: например трапециями или прямоугольниками.
 +
Немного поискав по Интернету, я так и не нашёл, какой из вариантов принят как канонический.
 +
Видимо, на такие детали не обращают внимания, поскольку в тех случаях, когда эту кривую строят, различие обычно несущественно.
 +
Но применительно к конкурсу ситуация другая.
 +
В условиях конкурса не сказано, что все оценки вероятности на объектах выборки должны быть различными.
В условиях конкурса не сказано, что все оценки вероятности на объектах выборки должны быть различными.
В частности, допустимо использовать только два значения: например 0 и 1. В этом случае ROC-кривая состоит всего из трёх точек (две из которых фиксированы - крайние, т.е. "информативная" точка всего одна).
В частности, допустимо использовать только два значения: например 0 и 1. В этом случае ROC-кривая состоит всего из трёх точек (две из которых фиксированы - крайние, т.е. "информативная" точка всего одна).
Поскольку "кривая" на самом деле дискретна, естественно соединить её точки ломаной, т.е площадь вычислять через трапеции.
Поскольку "кривая" на самом деле дискретна, естественно соединить её точки ломаной, т.е площадь вычислять через трапеции.
-
Но в алгоритме, опубликованном здесь, площадь вычисляется через аппроксимацию прямоугольниками. Для описанного примера (только двух различных оценок вероятности) результат по трапециям и по прямоугольникам кардинально различается.
+
Но в алгоритме, опубликованном здесь (в статье про ROC-кривую), площадь вычисляется через аппроксимацию прямоугольниками. Для описанного примера (только двух различных оценок вероятности) результат по трапециям и по прямоугольникам кардинально различается.
Собственно, вопрос в том, какой из них будет использован.
Собственно, вопрос в том, какой из них будет использован.
-
 
Кроме того, алгоритм предполагает вообще строгую упорядоченность точек по оценкам вероятности, и для других случаев приходится домысливать возможные варианты.
Кроме того, алгоритм предполагает вообще строгую упорядоченность точек по оценкам вероятности, и для других случаев приходится домысливать возможные варианты.
-
Желательно было бы уточнить метод вычисления площади под ROC-кривой для "вырожденных" случаев, достаточно для случая всего двух разных значений оценки.
+
Желательно было бы уточнить метод вычисления площади под ROC-кривой для "вырожденных" случаев, достаточно для случая всего двух разных значений оценки. Или просто указать способ аппроксимации.
Причём речь не идёт о "разумности" использования в данном конкурсе таких "вырожденных" методов. Скорее всего, при прочих равных, такие методы дадут худшие результаты. Но эти методы не запрещены правилами, и вопрос имеет смысл.
Причём речь не идёт о "разумности" использования в данном конкурсе таких "вырожденных" методов. Скорее всего, при прочих равных, такие методы дадут худшие результаты. Но эти методы не запрещены правилами, и вопрос имеет смысл.
[[Участник:Nvm|В.М. Неделько]] 13:55, 28 июля 2011 (MSD)
[[Участник:Nvm|В.М. Неделько]] 13:55, 28 июля 2011 (MSD)
 +
 +
 +
Кто-нибудь смотрел задачу?
 +
Пока не получается добиться, чтобы AUC была дольше 70%.
 +
 +
Кстати, сегодня не смог зарегистрироваться на "Полигоне" - пишет "Внутренняя ошибка работы сайта".
 +
Попробую завтра...
 +
[[Участник:Dj|Дь-ов]] 00:51, 24 августа 2011 (MSD)
 +
 +
== Вроде бы несоответствие ==
 +
 +
<blockquote>Для оценивания качества алгоритма на «Выборке Б» участник предоставляет csv-файл, строки которого в точности соответствуют строкам csv-файла «Выборки Б», а единственный столбец содержит вещественные оценки принадлежности клиентов классу 1.</blockquote>
 +
 +
А ведь в архивах xls-файлы, а не csv...
 +
или я не прав?
 +
[[Участник:Dj|Дь-ов]] 00:24, 27 августа 2011 (MSD)

Текущая версия

Задача представляется интересной и очень удачной в качестве предмета для конкурса.

Только есть некоторая неоднозначность в критерии оценивания результата, т.е. в вычислении площади под ROC-кривой. Поскольку ROC-"кривая" - это на самом деле дискретный набор точек, для вычисления площади под ней нужна аппроксимация (интерполяция). Здесь могут быть варианты: например трапециями или прямоугольниками. Немного поискав по Интернету, я так и не нашёл, какой из вариантов принят как канонический. Видимо, на такие детали не обращают внимания, поскольку в тех случаях, когда эту кривую строят, различие обычно несущественно. Но применительно к конкурсу ситуация другая.

В условиях конкурса не сказано, что все оценки вероятности на объектах выборки должны быть различными. В частности, допустимо использовать только два значения: например 0 и 1. В этом случае ROC-кривая состоит всего из трёх точек (две из которых фиксированы - крайние, т.е. "информативная" точка всего одна). Поскольку "кривая" на самом деле дискретна, естественно соединить её точки ломаной, т.е площадь вычислять через трапеции. Но в алгоритме, опубликованном здесь (в статье про ROC-кривую), площадь вычисляется через аппроксимацию прямоугольниками. Для описанного примера (только двух различных оценок вероятности) результат по трапециям и по прямоугольникам кардинально различается. Собственно, вопрос в том, какой из них будет использован. Кроме того, алгоритм предполагает вообще строгую упорядоченность точек по оценкам вероятности, и для других случаев приходится домысливать возможные варианты.

Желательно было бы уточнить метод вычисления площади под ROC-кривой для "вырожденных" случаев, достаточно для случая всего двух разных значений оценки. Или просто указать способ аппроксимации.

Причём речь не идёт о "разумности" использования в данном конкурсе таких "вырожденных" методов. Скорее всего, при прочих равных, такие методы дадут худшие результаты. Но эти методы не запрещены правилами, и вопрос имеет смысл.

В.М. Неделько 13:55, 28 июля 2011 (MSD)


Кто-нибудь смотрел задачу? Пока не получается добиться, чтобы AUC была дольше 70%.

Кстати, сегодня не смог зарегистрироваться на "Полигоне" - пишет "Внутренняя ошибка работы сайта". Попробую завтра...

Дь-ов 00:51, 24 августа 2011 (MSD)

Вроде бы несоответствие

Для оценивания качества алгоритма на «Выборке Б» участник предоставляет csv-файл, строки которого в точности соответствуют строкам csv-файла «Выборки Б», а единственный столбец содержит вещественные оценки принадлежности клиентов классу 1.

А ведь в архивах xls-файлы, а не csv... или я не прав?

Дь-ов 00:24, 27 августа 2011 (MSD)
Личные инструменты