Задача предсказания отклика клиентов ОТП Банка (конкурс)
Материал из MachineLearning.
(→Награды: ссылки) |
|||
(1 промежуточная версия не показана) | |||
Строка 36: | Строка 36: | ||
=== Этап первый: настройка алгоритмов === | === Этап первый: настройка алгоритмов === | ||
- | Этап проходит с момента объявления конкурса и до '''2 сентября 2011 года, 23:59''' по московскому времени. | + | <strike>Этап проходит с момента объявления конкурса и до '''2 сентября 2011 года, 23:59''' по московскому времени.</strike> |
+ | |||
+ | '''Update''': Cрок приема конкурсных заявок продлевается до '''09 сентября 23:59'''. | ||
+ | |||
В течение этого времени участники могут настраивать свои алгоритмы на обучающей части данных конкурсной задачи («выборка А»). | В течение этого времени участники могут настраивать свои алгоритмы на обучающей части данных конкурсной задачи («выборка А»). | ||
Для проверки своего алгоритма и сравнения с алгоритмами других участников конкурса можно воспользоваться системой «Полигон» [http://poligon.machinelearning.ru poligon.machinelearning.ru], в которой уже загружены исходные данные (выборка А), имеется несколько стандартных алгоритмов, реализовано вычисление AUC и сравнение алгоритмов по методике скользящего контроля. Методика тестирования в «Полигоне» заключается в следующем. Исходная выборка (выборка А) 50 раз разбивается на две подвыборки, обучающую и контрольную, по методике [[Скользящий контроль|10-кратного случайного разбиения на 5 блоков]] (10 x 5-fold cross-validation) со стратификацией классов (т. е. сохраняя равные пропорции классов в обеих подвыборках). В отчетах «Полигона» указывается оценка AUC, усредненная по всем 50 разбиениям, строятся доверительные интервал и графики. Предварительный рейтинг алгоритмов строится по убыванию среднего AUC. | Для проверки своего алгоритма и сравнения с алгоритмами других участников конкурса можно воспользоваться системой «Полигон» [http://poligon.machinelearning.ru poligon.machinelearning.ru], в которой уже загружены исходные данные (выборка А), имеется несколько стандартных алгоритмов, реализовано вычисление AUC и сравнение алгоритмов по методике скользящего контроля. Методика тестирования в «Полигоне» заключается в следующем. Исходная выборка (выборка А) 50 раз разбивается на две подвыборки, обучающую и контрольную, по методике [[Скользящий контроль|10-кратного случайного разбиения на 5 блоков]] (10 x 5-fold cross-validation) со стратификацией классов (т. е. сохраняя равные пропорции классов в обеих подвыборках). В отчетах «Полигона» указывается оценка AUC, усредненная по всем 50 разбиениям, строятся доверительные интервал и графики. Предварительный рейтинг алгоритмов строится по убыванию среднего AUC. | ||
Строка 43: | Строка 46: | ||
Доступ к конкурсному тестированию алгоритмов будет открыт на сайте системы «Полигон» '''15 августа в 12:00'''. Начиная с этого момента будут приниматься результаты классификации «Выборки Б», также через систему «Полигон». При этом участник конкурса может пройти конкурсное тестирование при помощи алгоритма, подключенного к Полигону или самостоятельно загрузить файл с результатами на «Выборке Б». В зачет конкурса пойдет только один результат от каждого участника — тот, который был загружен последним. | Доступ к конкурсному тестированию алгоритмов будет открыт на сайте системы «Полигон» '''15 августа в 12:00'''. Начиная с этого момента будут приниматься результаты классификации «Выборки Б», также через систему «Полигон». При этом участник конкурса может пройти конкурсное тестирование при помощи алгоритма, подключенного к Полигону или самостоятельно загрузить файл с результатами на «Выборке Б». В зачет конкурса пойдет только один результат от каждого участника — тот, который был загружен последним. | ||
+ | |||
+ | '''Update''': предоставить результаты на конкурс можно двумя способами: | ||
+ | * подключить свой алгоритм к системе "Полигон" и провести тестирование конкурсной задачи ([http://poligon.machinelearning.ru/Contests/Card.aspx?synonim=otp http://poligon.machinelearning.ru/Contests/Card.aspx?synonim=otp], ссылка "Мое участие в конкурсе") - при этом Ваша заявка будет предварительно оценена на обучающей части выборки и прорейтингована в сравнении с другими участниками ([http://poligon.machinelearning.ru/Contests/Board.aspx?synonim=otp рейтинг]). | ||
+ | * отправить файл с результатами на "выборке Б" по почте ([mailto:poligon@machinelearning.ru poligon@machinelearning.ru]) с темой сообщения "[Конкурс ОТП]". | ||
=== Этап второй: сравнение результатов и объявление победителя === | === Этап второй: сравнение результатов и объявление победителя === | ||
Строка 48: | Строка 55: | ||
== Награды == | == Награды == | ||
- | Победитель конкурса | + | Победитель конкурса [[Итоги конкурса предсказания отклика клиентов ОТП Банка|был объявлен]] '''16 сентября''', в день закрытия конференции [[ММРО|ММРО-15]]. |
Призовой фонд конкурса – 100 000 рублей (без учета налогов). | Призовой фонд конкурса – 100 000 рублей (без учета налогов). | ||
Денежный приз предоставлен партнером проведения конкурса – ОТП Банком. | Денежный приз предоставлен партнером проведения конкурса – ОТП Банком. | ||
+ | == Часто задаваемые вопросы == | ||
+ | |||
+ | ''' Достаточно ли загрузить файл с результатами на «Выборке Б» через систему «Полигон», чтобы он был рассмотрен в конкурсе или необходимо где-то дополнительно регистрироваться? ''' | ||
+ | |||
+ | Чтобы принять участие в конкурсе желательно (но не обязательно) зарегистрироваться на [http://poligon.machinelearning.ru/Contests/Card.aspx?synonim=otp странице конкурса] в Полигоне. | ||
+ | |||
+ | * подключить свой алгоритм к системе "Полигон" и провести тестирование конкурсной задачи ([http://poligon.machinelearning.ru/Contests/Card.aspx?synonim=otp http://poligon.machinelearning.ru/Contests/Card.aspx?synonim=otp], ссылка "Мое участие в конкурсе") - при этом Ваша заявка будет предварительно оценена на обучающей части выборки и прорейтингована в сравнении с другими участниками ([http://poligon.machinelearning.ru/Contests/Board.aspx?synonim=otp рейтинг]). | ||
+ | * отправить файл с результатами на "выборке Б" по почте ([mailto:poligon@machinelearning.ru poligon@machinelearning.ru]) с темой сообщения "[Конкурс ОТП]". | ||
+ | |||
+ | ''' Необходимо ли присутствие/участие конкурсанта в конференции ММРО-15? Может ли потенциальный победитель быть лишён награды за неявку на ММРО-15? ''' | ||
+ | |||
+ | Нет, участие или присутствие на конференции ММРО-15 не обязательно. | ||
+ | |||
+ | ''' Как трактовать незаполненные поля GEN_INDUSTRY, GEN_TITLE, ORG_TP_STATE, ORG_TP_FCAPITAL, JOB_DIR, WORK_TIME в записях таблицы данных? Означает ли это, что данный клиент банка – безработный? Если да, то на какой момент времени он являлся безработным? ''' | ||
+ | |||
+ | ''Ответ специалиста банка:'' Это означает, что клиент банка не заполнил данные поля анкеты. В большинстве случаев участники конкурса могут сами попытаться отгадать, почему некоторые переменные пусты. Это можно сделать по косвенным признакам, т.е. взглянув на другие переменные. | ||
+ | |||
+ | ''' На какой момент времени рассчитаны значения характеристик: возраст, семейное положение, наличия собственности, количества ссуд/просрочек и т.п.? ''' | ||
+ | |||
+ | ''Ответ специалиста Банка:'' Все переменные берутся на момент появления анкеты в хранилище Банка. | ||
[[Категория:Конкурсы]] | [[Категория:Конкурсы]] |
Текущая версия
|
Задача предсказания отклика клиентов ОТП Банка — конкурс по решению прикладной задачи из области банковского маркетинга, проводимый в рамках всероссийской конференции «Математические методы распознавания образов» ММРО-15, г.Петрозаводск, Республика Карелия, 11–17 сентября 2011.
Данные предоставлены ОТП Банком (www.otpbank.ru), который входит в число 50 крупнейших банков России, занимает 2-е место на рынке потребительского кредитования, 3-е место на рынке беззалогового кредитования, и 4-е место на рынке кредитных карт.
Объявление о конкурсе в виде PDF-файла: mmro-15_contest.pdf, 328Кб.
Вопросы организаторам конкурса можно задавать в обсуждении этой страницы
Описание задачи
Один из способов повышения эффективности взаимодействия банка с клиентами заключается в том, чтобы отправлять предложение о новой услуге не всем клиентам банка, а только некоторой части, выбираемой по принципу наибольшей склонности к отклику на данное предложение.
Конкурсное задание заключается в том, чтобы предложить алгоритм, который будет выдавать оценку склонности клиента к положительному отклику по его признаковому описанию. Эта оценка может (хотя и не обязана) интерпретироваться как вероятность положительного отклика. Предполагается, что, получив такие оценки для некоторого множества клиентов, банк обратится с предложением только к тем клиентам, у которых значение оценки выше некоторого порога.
Описание данных
Исходная выборка («выборка А») содержит записи о 15 223 клиентов, классифицированных на два класса:
- 1 — отклик был (1812 клиентов),
- 0 — отклика не было (13411 клиентов).
Ещё 14 910 записей отложены в качестве тестовых («выборка Б») – ответы по ним известны только банку. Тестовые данные будут использоваться для определения победителя конкурса.
Записи (признаковые описания) клиентов состоят из 50 признаков, в состав которых входит, в частности, возраст, пол, социальный статус относительно работы, социальный статус относительно пенсии, количество детей, количество иждивенцев, образование, семейное положение, отрасль работы.
Данные доступны по следующим адресам:
- выборка А: www.machinelearning.ru/wiki/images/2/26/Contest_MMRO15_OTP.rar
- выборка Б: www.machinelearning.ru/wiki/images/5/52/Contest_MMRO15_OTP_(validation).rar
Оценивание
Качество работы алгоритма будет оцениваться, согласно сложившейся в банковском маркетинге практике, при помощи показателя AUC (area under curve) — площади под ROC-кривой, вычисляемой по контрольным данным («выборка Б»).
Для оценивания качества алгоритма на «Выборке Б» участник предоставляет csv-файл, строки которого в точности соответствуют строкам csv-файла «Выборки Б», а единственный столбец содержит вещественные оценки принадлежности клиентов классу 1. Все оценки должны находиться в отрезке [0,1] и могут интерпретироваться как вероятности положительного отклика.
Процедура проведения конкурса и сроки
Конкурс проходит в два этапа.
Этап первый: настройка алгоритмов
Этап проходит с момента объявления конкурса и до 2 сентября 2011 года, 23:59 по московскому времени.
Update: Cрок приема конкурсных заявок продлевается до 09 сентября 23:59.
В течение этого времени участники могут настраивать свои алгоритмы на обучающей части данных конкурсной задачи («выборка А»). Для проверки своего алгоритма и сравнения с алгоритмами других участников конкурса можно воспользоваться системой «Полигон» poligon.machinelearning.ru, в которой уже загружены исходные данные (выборка А), имеется несколько стандартных алгоритмов, реализовано вычисление AUC и сравнение алгоритмов по методике скользящего контроля. Методика тестирования в «Полигоне» заключается в следующем. Исходная выборка (выборка А) 50 раз разбивается на две подвыборки, обучающую и контрольную, по методике 10-кратного случайного разбиения на 5 блоков (10 x 5-fold cross-validation) со стратификацией классов (т. е. сохраняя равные пропорции классов в обеих подвыборках). В отчетах «Полигона» указывается оценка AUC, усредненная по всем 50 разбиениям, строятся доверительные интервал и графики. Предварительный рейтинг алгоритмов строится по убыванию среднего AUC.
Для подключения своего алгоритма к системе «Полигон» необходимо реализовать модуль обмена данными. Техническая документация и необходимые шаблоны предоставлены на странице Полигон алгоритмов классификации. Участники конкурса могут регистрировать неограниченное количество алгоритмов в системе «Полигон» и тестировать их в рамках конкурсной задачи.
Доступ к конкурсному тестированию алгоритмов будет открыт на сайте системы «Полигон» 15 августа в 12:00. Начиная с этого момента будут приниматься результаты классификации «Выборки Б», также через систему «Полигон». При этом участник конкурса может пройти конкурсное тестирование при помощи алгоритма, подключенного к Полигону или самостоятельно загрузить файл с результатами на «Выборке Б». В зачет конкурса пойдет только один результат от каждого участника — тот, который был загружен последним.
Update: предоставить результаты на конкурс можно двумя способами:
- подключить свой алгоритм к системе "Полигон" и провести тестирование конкурсной задачи (http://poligon.machinelearning.ru/Contests/Card.aspx?synonim=otp, ссылка "Мое участие в конкурсе") - при этом Ваша заявка будет предварительно оценена на обучающей части выборки и прорейтингована в сравнении с другими участниками (рейтинг).
- отправить файл с результатами на "выборке Б" по почте (poligon@machinelearning.ru) с темой сообщения "[Конкурс ОТП]".
Этап второй: сравнение результатов и объявление победителя
После завершения первого этапа заявки на новые алгоритмы для участия в конкурсе не принимаются. Результаты тестирования передаются банку, который вычисляет AUC по «Выборке Б», и таким образом определяется победитель конкурса.
Награды
Победитель конкурса был объявлен 16 сентября, в день закрытия конференции ММРО-15. Призовой фонд конкурса – 100 000 рублей (без учета налогов).
Денежный приз предоставлен партнером проведения конкурса – ОТП Банком.
Часто задаваемые вопросы
Достаточно ли загрузить файл с результатами на «Выборке Б» через систему «Полигон», чтобы он был рассмотрен в конкурсе или необходимо где-то дополнительно регистрироваться?
Чтобы принять участие в конкурсе желательно (но не обязательно) зарегистрироваться на странице конкурса в Полигоне.
- подключить свой алгоритм к системе "Полигон" и провести тестирование конкурсной задачи (http://poligon.machinelearning.ru/Contests/Card.aspx?synonim=otp, ссылка "Мое участие в конкурсе") - при этом Ваша заявка будет предварительно оценена на обучающей части выборки и прорейтингована в сравнении с другими участниками (рейтинг).
- отправить файл с результатами на "выборке Б" по почте (poligon@machinelearning.ru) с темой сообщения "[Конкурс ОТП]".
Необходимо ли присутствие/участие конкурсанта в конференции ММРО-15? Может ли потенциальный победитель быть лишён награды за неявку на ММРО-15?
Нет, участие или присутствие на конференции ММРО-15 не обязательно.
Как трактовать незаполненные поля GEN_INDUSTRY, GEN_TITLE, ORG_TP_STATE, ORG_TP_FCAPITAL, JOB_DIR, WORK_TIME в записях таблицы данных? Означает ли это, что данный клиент банка – безработный? Если да, то на какой момент времени он являлся безработным?
Ответ специалиста банка: Это означает, что клиент банка не заполнил данные поля анкеты. В большинстве случаев участники конкурса могут сами попытаться отгадать, почему некоторые переменные пусты. Это можно сделать по косвенным признакам, т.е. взглянув на другие переменные.
На какой момент времени рассчитаны значения характеристик: возраст, семейное положение, наличия собственности, количества ссуд/просрочек и т.п.?
Ответ специалиста Банка: Все переменные берутся на момент появления анкеты в хранилище Банка.