Задача предсказания отклика клиентов ОТП Банка (конкурс)

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Награды: ссылки)
 
(1 промежуточная версия не показана)
Строка 36: Строка 36:
=== Этап первый: настройка алгоритмов ===
=== Этап первый: настройка алгоритмов ===
-
Этап проходит с момента объявления конкурса и до '''2 сентября 2011 года, 23:59''' по московскому времени.
+
<strike>Этап проходит с момента объявления конкурса и до '''2 сентября 2011 года, 23:59''' по московскому времени.</strike>
 +
 
 +
'''Update''': Cрок приема конкурсных заявок продлевается до '''09 сентября 23:59'''.
 +
 
В течение этого времени участники могут настраивать свои алгоритмы на обучающей части данных конкурсной задачи («выборка А»).
В течение этого времени участники могут настраивать свои алгоритмы на обучающей части данных конкурсной задачи («выборка А»).
Для проверки своего алгоритма и сравнения с алгоритмами других участников конкурса можно воспользоваться системой «Полигон» [http://poligon.machinelearning.ru poligon.machinelearning.ru], в которой уже загружены исходные данные (выборка А), имеется несколько стандартных алгоритмов, реализовано вычисление AUC и сравнение алгоритмов по методике скользящего контроля. Методика тестирования в «Полигоне» заключается в следующем. Исходная выборка (выборка А) 50 раз разбивается на две подвыборки, обучающую и контрольную, по методике [[Скользящий контроль|10-кратного случайного разбиения на 5 блоков]] (10 x 5-fold cross-validation) со стратификацией классов (т. е. сохраняя равные пропорции классов в обеих подвыборках). В отчетах «Полигона» указывается оценка AUC, усредненная по всем 50 разбиениям, строятся доверительные интервал и графики. Предварительный рейтинг алгоритмов строится по убыванию среднего AUC.
Для проверки своего алгоритма и сравнения с алгоритмами других участников конкурса можно воспользоваться системой «Полигон» [http://poligon.machinelearning.ru poligon.machinelearning.ru], в которой уже загружены исходные данные (выборка А), имеется несколько стандартных алгоритмов, реализовано вычисление AUC и сравнение алгоритмов по методике скользящего контроля. Методика тестирования в «Полигоне» заключается в следующем. Исходная выборка (выборка А) 50 раз разбивается на две подвыборки, обучающую и контрольную, по методике [[Скользящий контроль|10-кратного случайного разбиения на 5 блоков]] (10 x 5-fold cross-validation) со стратификацией классов (т. е. сохраняя равные пропорции классов в обеих подвыборках). В отчетах «Полигона» указывается оценка AUC, усредненная по всем 50 разбиениям, строятся доверительные интервал и графики. Предварительный рейтинг алгоритмов строится по убыванию среднего AUC.
Строка 43: Строка 46:
Доступ к конкурсному тестированию алгоритмов будет открыт на сайте системы «Полигон» '''15 августа в 12:00'''. Начиная с этого момента будут приниматься результаты классификации «Выборки Б», также через систему «Полигон». При этом участник конкурса может пройти конкурсное тестирование при помощи алгоритма, подключенного к Полигону или самостоятельно загрузить файл с результатами на «Выборке Б». В зачет конкурса пойдет только один результат от каждого участника — тот, который был загружен последним.
Доступ к конкурсному тестированию алгоритмов будет открыт на сайте системы «Полигон» '''15 августа в 12:00'''. Начиная с этого момента будут приниматься результаты классификации «Выборки Б», также через систему «Полигон». При этом участник конкурса может пройти конкурсное тестирование при помощи алгоритма, подключенного к Полигону или самостоятельно загрузить файл с результатами на «Выборке Б». В зачет конкурса пойдет только один результат от каждого участника — тот, который был загружен последним.
 +
 +
'''Update''': предоставить результаты на конкурс можно двумя способами:
 +
* подключить свой алгоритм к системе "Полигон" и провести тестирование конкурсной задачи ([http://poligon.machinelearning.ru/Contests/Card.aspx?synonim=otp http://poligon.machinelearning.ru/Contests/Card.aspx?synonim=otp], ссылка "Мое участие в конкурсе") - при этом Ваша заявка будет предварительно оценена на обучающей части выборки и прорейтингована в сравнении с другими участниками ([http://poligon.machinelearning.ru/Contests/Board.aspx?synonim=otp рейтинг]).
 +
* отправить файл с результатами на "выборке Б" по почте ([mailto:poligon@machinelearning.ru poligon@machinelearning.ru]) с темой сообщения "[Конкурс ОТП]".
=== Этап второй: сравнение результатов и объявление победителя ===
=== Этап второй: сравнение результатов и объявление победителя ===
Строка 48: Строка 55:
== Награды ==
== Награды ==
-
Победитель конкурса будет объявлен '''16 сентября''', в день закрытия конференции [[ММРО]]-15.
+
Победитель конкурса [[Итоги конкурса предсказания отклика клиентов ОТП Банка|был объявлен]] '''16 сентября''', в день закрытия конференции [[ММРО|ММРО-15]].
Призовой фонд конкурса – 100&nbsp;000 рублей (без учета налогов).
Призовой фонд конкурса – 100&nbsp;000 рублей (без учета налогов).
Денежный приз предоставлен партнером проведения конкурса – ОТП Банком.
Денежный приз предоставлен партнером проведения конкурса – ОТП Банком.
 +
== Часто задаваемые вопросы ==
 +
 +
''' Достаточно ли загрузить файл с результатами на «Выборке Б» через систему «Полигон», чтобы он был рассмотрен в конкурсе или необходимо где-то дополнительно регистрироваться? '''
 +
 +
Чтобы принять участие в конкурсе желательно (но не обязательно) зарегистрироваться на [http://poligon.machinelearning.ru/Contests/Card.aspx?synonim=otp странице конкурса] в Полигоне.
 +
 +
* подключить свой алгоритм к системе "Полигон" и провести тестирование конкурсной задачи ([http://poligon.machinelearning.ru/Contests/Card.aspx?synonim=otp http://poligon.machinelearning.ru/Contests/Card.aspx?synonim=otp], ссылка "Мое участие в конкурсе") - при этом Ваша заявка будет предварительно оценена на обучающей части выборки и прорейтингована в сравнении с другими участниками ([http://poligon.machinelearning.ru/Contests/Board.aspx?synonim=otp рейтинг]).
 +
* отправить файл с результатами на "выборке Б" по почте ([mailto:poligon@machinelearning.ru poligon@machinelearning.ru]) с темой сообщения "[Конкурс ОТП]".
 +
 +
''' Необходимо ли присутствие/участие конкурсанта в конференции ММРО-15? Может ли потенциальный победитель быть лишён награды за неявку на ММРО-15? '''
 +
 +
Нет, участие или присутствие на конференции ММРО-15 не обязательно.
 +
 +
''' Как трактовать незаполненные поля GEN_INDUSTRY, GEN_TITLE, ORG_TP_STATE, ORG_TP_FCAPITAL, JOB_DIR, WORK_TIME в записях таблицы данных? Означает ли это, что данный клиент банка – безработный? Если да, то на какой момент времени он являлся безработным? '''
 +
 +
''Ответ специалиста банка:'' Это означает, что клиент банка не заполнил данные поля анкеты. В большинстве случаев участники конкурса могут сами попытаться отгадать, почему некоторые переменные пусты. Это можно сделать по косвенным признакам, т.е. взглянув на другие переменные.
 +
 +
''' На какой момент времени рассчитаны значения характеристик: возраст, семейное положение, наличия собственности, количества ссуд/просрочек и т.п.? '''
 +
 +
''Ответ специалиста Банка:'' Все переменные берутся на момент появления анкеты в хранилище Банка.
[[Категория:Конкурсы]]
[[Категория:Конкурсы]]

Текущая версия

Содержание

Задача предсказания отклика клиентов ОТП Банка — конкурс по решению прикладной задачи из области банковского маркетинга, проводимый в рамках всероссийской конференции «Математические методы распознавания образов» ММРО-15, г.Петрозаводск, Республика Карелия, 11–17 сентября 2011.

Данные предоставлены ОТП Банком (www.otpbank.ru), который входит в число 50 крупнейших банков России, занимает 2-е место на рынке потребительского кредитования, 3-е место на рынке беззалогового кредитования, и 4-е место на рынке кредитных карт.

Объявление о конкурсе в виде PDF-файла: mmro-15_contest.pdf, 328Кб.

Вопросы организаторам конкурса можно задавать в обсуждении этой страницы

Описание задачи

Один из способов повышения эффективности взаимодействия банка с клиентами заключается в том, чтобы отправлять предложение о новой услуге не всем клиентам банка, а только некоторой части, выбираемой по принципу наибольшей склонности к отклику на данное предложение.

Конкурсное задание заключается в том, чтобы предложить алгоритм, который будет выдавать оценку склонности клиента к положительному отклику по его признаковому описанию. Эта оценка может (хотя и не обязана) интерпретироваться как вероятность положительного отклика. Предполагается, что, получив такие оценки для некоторого множества клиентов, банк обратится с предложением только к тем клиентам, у которых значение оценки выше некоторого порога.

Описание данных

Исходная выборка («выборка А») содержит записи о 15 223 клиентов, классифицированных на два класса:

  • 1 — отклик был (1812 клиентов),
  • 0 — отклика не было (13411 клиентов).

Ещё 14 910 записей отложены в качестве тестовых («выборка Б») – ответы по ним известны только банку. Тестовые данные будут использоваться для определения победителя конкурса.

Записи (признаковые описания) клиентов состоят из 50 признаков, в состав которых входит, в частности, возраст, пол, социальный статус относительно работы, социальный статус относительно пенсии, количество детей, количество иждивенцев, образование, семейное положение, отрасль работы.

Данные доступны по следующим адресам:

Оценивание

Качество работы алгоритма будет оцениваться, согласно сложившейся в банковском маркетинге практике, при помощи показателя AUC (area under curve) — площади под ROC-кривой, вычисляемой по контрольным данным («выборка Б»).

Для оценивания качества алгоритма на «Выборке Б» участник предоставляет csv-файл, строки которого в точности соответствуют строкам csv-файла «Выборки Б», а единственный столбец содержит вещественные оценки принадлежности клиентов классу 1. Все оценки должны находиться в отрезке [0,1] и могут интерпретироваться как вероятности положительного отклика.

Процедура проведения конкурса и сроки

Конкурс проходит в два этапа.

Этап первый: настройка алгоритмов

Этап проходит с момента объявления конкурса и до 2 сентября 2011 года, 23:59 по московскому времени.

Update: Cрок приема конкурсных заявок продлевается до 09 сентября 23:59.

В течение этого времени участники могут настраивать свои алгоритмы на обучающей части данных конкурсной задачи («выборка А»). Для проверки своего алгоритма и сравнения с алгоритмами других участников конкурса можно воспользоваться системой «Полигон» poligon.machinelearning.ru, в которой уже загружены исходные данные (выборка А), имеется несколько стандартных алгоритмов, реализовано вычисление AUC и сравнение алгоритмов по методике скользящего контроля. Методика тестирования в «Полигоне» заключается в следующем. Исходная выборка (выборка А) 50 раз разбивается на две подвыборки, обучающую и контрольную, по методике 10-кратного случайного разбиения на 5 блоков (10 x 5-fold cross-validation) со стратификацией классов (т. е. сохраняя равные пропорции классов в обеих подвыборках). В отчетах «Полигона» указывается оценка AUC, усредненная по всем 50 разбиениям, строятся доверительные интервал и графики. Предварительный рейтинг алгоритмов строится по убыванию среднего AUC.

Для подключения своего алгоритма к системе «Полигон» необходимо реализовать модуль обмена данными. Техническая документация и необходимые шаблоны предоставлены на странице Полигон алгоритмов классификации. Участники конкурса могут регистрировать неограниченное количество алгоритмов в системе «Полигон» и тестировать их в рамках конкурсной задачи.

Доступ к конкурсному тестированию алгоритмов будет открыт на сайте системы «Полигон» 15 августа в 12:00. Начиная с этого момента будут приниматься результаты классификации «Выборки Б», также через систему «Полигон». При этом участник конкурса может пройти конкурсное тестирование при помощи алгоритма, подключенного к Полигону или самостоятельно загрузить файл с результатами на «Выборке Б». В зачет конкурса пойдет только один результат от каждого участника — тот, который был загружен последним.

Update: предоставить результаты на конкурс можно двумя способами:

  • подключить свой алгоритм к системе "Полигон" и провести тестирование конкурсной задачи (http://poligon.machinelearning.ru/Contests/Card.aspx?synonim=otp, ссылка "Мое участие в конкурсе") - при этом Ваша заявка будет предварительно оценена на обучающей части выборки и прорейтингована в сравнении с другими участниками (рейтинг).
  • отправить файл с результатами на "выборке Б" по почте (poligon@machinelearning.ru) с темой сообщения "[Конкурс ОТП]".

Этап второй: сравнение результатов и объявление победителя

После завершения первого этапа заявки на новые алгоритмы для участия в конкурсе не принимаются. Результаты тестирования передаются банку, который вычисляет AUC по «Выборке Б», и таким образом определяется победитель конкурса.

Награды

Победитель конкурса был объявлен 16 сентября, в день закрытия конференции ММРО-15. Призовой фонд конкурса – 100 000 рублей (без учета налогов).

Денежный приз предоставлен партнером проведения конкурса – ОТП Банком.

Часто задаваемые вопросы

Достаточно ли загрузить файл с результатами на «Выборке Б» через систему «Полигон», чтобы он был рассмотрен в конкурсе или необходимо где-то дополнительно регистрироваться?

Чтобы принять участие в конкурсе желательно (но не обязательно) зарегистрироваться на странице конкурса в Полигоне.

  • подключить свой алгоритм к системе "Полигон" и провести тестирование конкурсной задачи (http://poligon.machinelearning.ru/Contests/Card.aspx?synonim=otp, ссылка "Мое участие в конкурсе") - при этом Ваша заявка будет предварительно оценена на обучающей части выборки и прорейтингована в сравнении с другими участниками (рейтинг).
  • отправить файл с результатами на "выборке Б" по почте (poligon@machinelearning.ru) с темой сообщения "[Конкурс ОТП]".

Необходимо ли присутствие/участие конкурсанта в конференции ММРО-15? Может ли потенциальный победитель быть лишён награды за неявку на ММРО-15?

Нет, участие или присутствие на конференции ММРО-15 не обязательно.

Как трактовать незаполненные поля GEN_INDUSTRY, GEN_TITLE, ORG_TP_STATE, ORG_TP_FCAPITAL, JOB_DIR, WORK_TIME в записях таблицы данных? Означает ли это, что данный клиент банка – безработный? Если да, то на какой момент времени он являлся безработным?

Ответ специалиста банка: Это означает, что клиент банка не заполнил данные поля анкеты. В большинстве случаев участники конкурса могут сами попытаться отгадать, почему некоторые переменные пусты. Это можно сделать по косвенным признакам, т.е. взглянув на другие переменные.

На какой момент времени рассчитаны значения характеристик: возраст, семейное положение, наличия собственности, количества ссуд/просрочек и т.п.?

Ответ специалиста Банка: Все переменные берутся на момент появления анкеты в хранилище Банка.

Личные инструменты