Конкурс Avito.ru-2014: распознавание контактной информации на изображениях
Материал из MachineLearning.
Строка 1: | Строка 1: | ||
{{TOCright}} | {{TOCright}} | ||
'''Задача распознавания контактной информации на изображениях Avito.ru''' — конкурс по решению прикладной задачи из области анализа изображений, проводимый в рамках 10-й Международной конференции «Интеллектуализация обработки информации-2014» (ИОИ-2014), Греция, о. Крит, 4-11 октября 2014. | '''Задача распознавания контактной информации на изображениях Avito.ru''' — конкурс по решению прикладной задачи из области анализа изображений, проводимый в рамках 10-й Международной конференции «Интеллектуализация обработки информации-2014» (ИОИ-2014), Греция, о. Крит, 4-11 октября 2014. | ||
+ | |||
Участвовать в конкурсе могут все желающие. Особенно приветствуется участие в конкурсе студентов, аспирантов и молодых ученых, поскольку это уникальная возможность познакомиться с актуальной прикладной задачей машинного обучения и попробовать в деле свои знания и навыки. | Участвовать в конкурсе могут все желающие. Особенно приветствуется участие в конкурсе студентов, аспирантов и молодых ученых, поскольку это уникальная возможность познакомиться с актуальной прикладной задачей машинного обучения и попробовать в деле свои знания и навыки. | ||
+ | |||
Конкурс проводится компанией Avito.ru при организационной поддержке компании Форексис (ссылка). | Конкурс проводится компанией Avito.ru при организационной поддержке компании Форексис (ссылка). | ||
+ | |||
'''Старт конкурса''' – 29.09.2014. | '''Старт конкурса''' – 29.09.2014. | ||
+ | |||
Вопросы организаторам конкурса можно задавать в обсуждении этой страницы (ссылка). | Вопросы организаторам конкурса можно задавать в обсуждении этой страницы (ссылка). | ||
==Avito.ru== | ==Avito.ru== | ||
Avito.ru является самым большим в России сайтом объявлений. Миллионы людей ежедневно заходят на портал, чтобы продать или купить практически всё, что пожелают: от цифровой техники и одежды до автомобилей и недвижимости. Объявления размещают частные лица, предприниматели и компании, поэтому на Avito.ru можно купить как бывшие в употреблении вещи, так и абсолютно новые товары. | Avito.ru является самым большим в России сайтом объявлений. Миллионы людей ежедневно заходят на портал, чтобы продать или купить практически всё, что пожелают: от цифровой техники и одежды до автомобилей и недвижимости. Объявления размещают частные лица, предприниматели и компании, поэтому на Avito.ru можно купить как бывшие в употреблении вещи, так и абсолютно новые товары. | ||
+ | |||
Миссия Avito.ru — соединить продавцов и покупателей по всей России, изменив их повседневную жизнь к лучшему. | Миссия Avito.ru — соединить продавцов и покупателей по всей России, изменив их повседневную жизнь к лучшему. | ||
+ | |||
На Avito.ru более 24 миллионов активных объявлений и каждый день огромное количество объявлений создается или изменяется. Эффективность Avito.ru в значительной степени зависит от качества заполнения содержания объявлений, поскольку качественные объявления позволяют покупателям оперативно находить подходящие предложения, а продавцам - продавать свои товары за считанные часы. | На Avito.ru более 24 миллионов активных объявлений и каждый день огромное количество объявлений создается или изменяется. Эффективность Avito.ru в значительной степени зависит от качества заполнения содержания объявлений, поскольку качественные объявления позволяют покупателям оперативно находить подходящие предложения, а продавцам - продавать свои товары за считанные часы. | ||
+ | |||
==Описание задачи== | ==Описание задачи== | ||
По правилам Avito.ru в объявлении контактная информация продавца (например, телефон, e-mail, ссылка на сайт) должна быть указана в соответствующих текстовых полях. Это позволяет эффективно находить дубликаты объявлений, организовывать черные списки недобросовестных продавцов и выявлять другие нарушения. Типичным нарушением является заполнение текстовых полей объявления недействительной контактной информацией, в тоже время, на изображении предоставляется актуальная информация. | По правилам Avito.ru в объявлении контактная информация продавца (например, телефон, e-mail, ссылка на сайт) должна быть указана в соответствующих текстовых полях. Это позволяет эффективно находить дубликаты объявлений, организовывать черные списки недобросовестных продавцов и выявлять другие нарушения. Типичным нарушением является заполнение текстовых полей объявления недействительной контактной информацией, в тоже время, на изображении предоставляется актуальная информация. | ||
+ | |||
'''Цель конкурса''' – создание эффективного алгоритма распознавания изображений, содержащих контактную информацию. | '''Цель конкурса''' – создание эффективного алгоритма распознавания изображений, содержащих контактную информацию. | ||
+ | |||
Ниже приведены два примера изображений с контактной информацией. | Ниже приведены два примера изображений с контактной информацией. | ||
==Описание данных== | ==Описание данных== | ||
Исходная выборка, '''выборка А''', содержит 41 122 изображения, классифицированных на два класса: | Исходная выборка, '''выборка А''', содержит 41 122 изображения, классифицированных на два класса: | ||
- | 1 – имеется контактная информация (12031), | + | * 1 – имеется контактная информация (12031), |
- | 0 - нет контактной информации (29091). | + | * 0 - нет контактной информации (29091). |
Выборка А используется для настройки алгоритмов участниками. | Выборка А используется для настройки алгоритмов участниками. | ||
+ | |||
Еще 10 000 изображений являются тестовыми, '''выборка Б''', – ответы по ним известны только организаторам. Тестовые данные будут использоваться для составления промежуточного рейтинга участников (ссылка), который, согласно правилам (ссылка), обновляется два раза в неделю. | Еще 10 000 изображений являются тестовыми, '''выборка Б''', – ответы по ним известны только организаторам. Тестовые данные будут использоваться для составления промежуточного рейтинга участников (ссылка), который, согласно правилам (ссылка), обновляется два раза в неделю. | ||
+ | |||
И, наконец, третья выборка, '''выборка В''', – контрольная, предоставляется участникам на третьем этапе конкурса и содержит 10 000 изображений. Контрольная выборка будет использоваться для определения победителей конкурса. Подробнее об этапах конкурса (ссылка). | И, наконец, третья выборка, '''выборка В''', – контрольная, предоставляется участникам на третьем этапе конкурса и содержит 10 000 изображений. Контрольная выборка будет использоваться для определения победителей конкурса. Подробнее об этапах конкурса (ссылка). | ||
+ | |||
Изображения имеют формат jpg, ответы по обучающей выборке представлены в csv-файле в формате Id, label, где Id – имя файла изображения, а label – метка класса, 0 или 1. | Изображения имеют формат jpg, ответы по обучающей выборке представлены в csv-файле в формате Id, label, где Id – имя файла изображения, а label – метка класса, 0 или 1. | ||
- | Данные можно скачать по ссылкам: | + | |
- | Выборка А(ссылка) – папка содержит обучающие картинки в формате jpg. | + | Данные можно скачать по ссылкам: <br /> |
- | Выборка Б(ссылка) - папка содержит тестовые картинки в формате jpg. | + | Выборка А(ссылка) – папка содержит обучающие картинки в формате jpg.<br /> |
+ | Выборка Б(ссылка) - папка содержит тестовые картинки в формате jpg.<br /> | ||
Метки классов объектов обучающей выборки (ссылка) – csv-файле содержит метки классов для выборки А. | Метки классов объектов обучающей выборки (ссылка) – csv-файле содержит метки классов для выборки А. | ||
+ | |||
==Функционал качества алгоритма распознавания== | ==Функционал качества алгоритма распознавания== | ||
Качество работы алгоритмов распознавания оценивается показателем AUC – площадь под ROC-кривой (http://www.machinelearning.ru/wiki/index.php?title=ROC-%D0%BA%D1%80%D0%B8%D0%B2%D0%B0%D1%8F). | Качество работы алгоритмов распознавания оценивается показателем AUC – площадь под ROC-кривой (http://www.machinelearning.ru/wiki/index.php?title=ROC-%D0%BA%D1%80%D0%B8%D0%B2%D0%B0%D1%8F). | ||
+ | |||
Реализация функционала качества AUC в среде Matlab: | Реализация функционала качества AUC в среде Matlab: | ||
+ | |||
[X,Y,T,AUC] = perfcurve(class,y_pred,posclass); (http://www.mathworks.com/help/stats/perfcurve.html) | [X,Y,T,AUC] = perfcurve(class,y_pred,posclass); (http://www.mathworks.com/help/stats/perfcurve.html) | ||
+ | |||
==Регистрация участников== | ==Регистрация участников== | ||
Для регистрации в конкурсе участнику необходимо до 24 октября 2014 года 23:59 прислать письмо на адрес competition.Avito.2014@forecsys.ru с темой «Регистрация», содержащее никнейм участника – имя/псевдоним, которое будет отображаться в предварительном рейтинге участников, формируемом в течение первого этапа. Электронный адрес отправителя письма будет использоваться для идентификации участника. | Для регистрации в конкурсе участнику необходимо до 24 октября 2014 года 23:59 прислать письмо на адрес competition.Avito.2014@forecsys.ru с темой «Регистрация», содержащее никнейм участника – имя/псевдоним, которое будет отображаться в предварительном рейтинге участников, формируемом в течение первого этапа. Электронный адрес отправителя письма будет использоваться для идентификации участника. | ||
+ | |||
==Этапы и сроки проведения конкурса== | ==Этапы и сроки проведения конкурса== | ||
Конкурс проходит в три этапа. | Конкурс проходит в три этапа. | ||
===Этап первый: настройка алгоритмов распознавания=== | ===Этап первый: настройка алгоритмов распознавания=== | ||
Этап проходит с момента объявления конкурса 29.09.2014 и до 31 октября 2014 года, 23:59 по московскому времени. | Этап проходит с момента объявления конкурса 29.09.2014 и до 31 октября 2014 года, 23:59 по московскому времени. | ||
+ | |||
В течение этого времени участники настраивают свои алгоритмы на обучающей части данных конкурсной задачи (выборка А). | В течение этого времени участники настраивают свои алгоритмы на обучающей части данных конкурсной задачи (выборка А). | ||
+ | |||
Для проверки качества алгоритмов и составления предварительного рейтинга результатов участники отправляют файл с результатами на выборке Б на почту competition.Avito.2014@forecsys.ru, указав в теме письма «Результаты Б: Никнейм участника» (письмо должно быть отправлено с того же электронного адреса, что и при регистрации участника). | Для проверки качества алгоритмов и составления предварительного рейтинга результатов участники отправляют файл с результатами на выборке Б на почту competition.Avito.2014@forecsys.ru, указав в теме письма «Результаты Б: Никнейм участника» (письмо должно быть отправлено с того же электронного адреса, что и при регистрации участника). | ||
+ | |||
Результаты представляются в csv-формате (образец файла здесь(ссылка)). Формат имени файла “YYYYMMDD_Никнейм участника_Результаты_Б_version1.csv”. Файл с результатами содержит два столбца: в первом столбце указаны идентификаторы изображений (имена файлов), а во втором – вещественные оценки вероятностей нахождения на картинках контактной информации. Значения оценок вероятностей должны принадлежать отрезку [0,1]. Пропуски и строковые не допускаются. | Результаты представляются в csv-формате (образец файла здесь(ссылка)). Формат имени файла “YYYYMMDD_Никнейм участника_Результаты_Б_version1.csv”. Файл с результатами содержит два столбца: в первом столбце указаны идентификаторы изображений (имена файлов), а во втором – вещественные оценки вероятностей нахождения на картинках контактной информации. Значения оценок вероятностей должны принадлежать отрезку [0,1]. Пропуски и строковые не допускаются. | ||
+ | |||
Два раза в неделю – '''понедельник и четверг до 23:59''' по московскому времени – осуществляется прием писем с оценками вероятностей для выборки Б для составления очередного предварительного рейтинга участников. В течение следующего рабочего дня будет обновлен предварительных рейтинг результатов участников (ссылка). Для расчета рейтинга используются результаты участника, полученные в '''последнем письме'''. | Два раза в неделю – '''понедельник и четверг до 23:59''' по московскому времени – осуществляется прием писем с оценками вероятностей для выборки Б для составления очередного предварительного рейтинга участников. В течение следующего рабочего дня будет обновлен предварительных рейтинг результатов участников (ссылка). Для расчета рейтинга используются результаты участника, полученные в '''последнем письме'''. | ||
+ | |||
===Этап второй: сбор алгоритмов участников=== | ===Этап второй: сбор алгоритмов участников=== | ||
Этап занимает 2 дня – '''3 и 4 ноября 2014 года'''. Участники должны прислать файл с описанием алгоритма (ссылка), а также ZIP-архив c файлами программы алгоритма (ссылка). Программа алгоритма будет использована для проверки воспроизводимости результатов участника на контрольной выборке В. Участники, не приславшие вовремя свои модели, не смогут претендовать на победу в конкурсе. Требования к описанию алгоритмов (ссылка) и программному обеспечению (ссылка). | Этап занимает 2 дня – '''3 и 4 ноября 2014 года'''. Участники должны прислать файл с описанием алгоритма (ссылка), а также ZIP-архив c файлами программы алгоритма (ссылка). Программа алгоритма будет использована для проверки воспроизводимости результатов участника на контрольной выборке В. Участники, не приславшие вовремя свои модели, не смогут претендовать на победу в конкурсе. Требования к описанию алгоритмов (ссылка) и программному обеспечению (ссылка). | ||
+ | |||
===Этап третий: сбор результатов по контрольной выборке В=== | ===Этап третий: сбор результатов по контрольной выборке В=== | ||
'''5 ноября 2014 года''' участникам предоставляется для скачивания контрольная выборка В. | '''5 ноября 2014 года''' участникам предоставляется для скачивания контрольная выборка В. | ||
+ | |||
'''С 5 по 7 ноября 2014 23:59''' по московскому времени участники высылают результаты работы алгоритмов на выборке В (образец файла здесь(ссылка)) на почтовый адрес competition.Avito.2014@forecsys.ru, указав в теме письма «Результаты В: Никнейм участника», Формат имени файла “YYYYMMDD_Никнейм участника_Результаты_В_version1.csv”. | '''С 5 по 7 ноября 2014 23:59''' по московскому времени участники высылают результаты работы алгоритмов на выборке В (образец файла здесь(ссылка)) на почтовый адрес competition.Avito.2014@forecsys.ru, указав в теме письма «Результаты В: Никнейм участника», Формат имени файла “YYYYMMDD_Никнейм участника_Результаты_В_version1.csv”. | ||
+ | |||
Последние присланные участником результаты до '''7 ноября 2014 23:59''' на контрольной выборке В будут использованы при определении победителей конкурса. | Последние присланные участником результаты до '''7 ноября 2014 23:59''' на контрольной выборке В будут использованы при определении победителей конкурса. | ||
+ | |||
==Процедура определения победителей и призовой фонд== | ==Процедура определения победителей и призовой фонд== | ||
'''Победителем конкурса''' (первое место) станет участник, алгоритм которого продемонстрировал наилучший результат на контрольной выборке В. | '''Победителем конкурса''' (первое место) станет участник, алгоритм которого продемонстрировал наилучший результат на контрольной выборке В. | ||
+ | |||
'''Второе место займет''' участник, показавший наилучший результат на контрольной выборке В среди тех участников, которые использовали только некоммерческое ПО (ссылка). В случае, если первое место занял участник, пользующийся только некоммерческим ПО, второе место достанется следующему по оценке качества алгоритма по результатам на выборке В среди тех, кто использовал только некоммерческое ПО. | '''Второе место займет''' участник, показавший наилучший результат на контрольной выборке В среди тех участников, которые использовали только некоммерческое ПО (ссылка). В случае, если первое место занял участник, пользующийся только некоммерческим ПО, второе место достанется следующему по оценке качества алгоритма по результатам на выборке В среди тех, кто использовал только некоммерческое ПО. | ||
- | '''Воспроизводимость результата работы алгоритма''' участника с использованием присланной ранее программы алгоритма является обязательным условием получения призового места. Предоставление организаторам необходимого ПО и помощь в воспроизведении результатов является обязанностью участника. | + | |
- | Денежная премия: | + | '''Воспроизводимость результата работы алгоритма''' участника с использованием присланной ранее программы алгоритма является обязательным условием получения призового места. Предоставление организаторам необходимого ПО и помощь в воспроизведении результатов является обязанностью участника. |
- | 1-е место '''100 000''' рублей (без учета налогов). | + | |
- | 2-е место '''50 000''' рублей (без учета налогов). | + | Денежная премия: <br /> |
+ | ::1-е место '''100 000''' рублей (без учета налогов).<br /> | ||
+ | ::2-е место '''50 000''' рублей (без учета налогов). | ||
+ | |||
==Публикация презентаций победителей== | ==Публикация презентаций победителей== | ||
После объявления победителей им предоставляется возможность опубликовать презентации своих алгоритмов на портале MachineLearning.ru в течение пяти дней. Презентация должна быть в формате pdf и давать представление о том, на чем основан и как работает алгоритм. | После объявления победителей им предоставляется возможность опубликовать презентации своих алгоритмов на портале MachineLearning.ru в течение пяти дней. Презентация должна быть в формате pdf и давать представление о том, на чем основан и как работает алгоритм. | ||
+ | |||
==Требования к программному обеспечению== | ==Требования к программному обеспечению== | ||
Приветствуется, в первую очередь, использование программного обеспечения (ПО), которое не требует лицензии для коммерческого использования. Использование коммерческого ПО также допускается. | Приветствуется, в первую очередь, использование программного обеспечения (ПО), которое не требует лицензии для коммерческого использования. Использование коммерческого ПО также допускается. | ||
+ | |||
К ПО предъявляется одно общее требование – возможность воспроизведения организаторами результатов участника без приобретения каких-либо лицензий, например, используя тестовые версии соответствующего ПО, которые находятся в открытом доступе на сайте производителя. | К ПО предъявляется одно общее требование – возможность воспроизведения организаторами результатов участника без приобретения каких-либо лицензий, например, используя тестовые версии соответствующего ПО, которые находятся в открытом доступе на сайте производителя. | ||
+ | |||
Предоставление организаторам необходимого ПО и помощь в воспроизведении результатов является обязанностью участника. | Предоставление организаторам необходимого ПО и помощь в воспроизведении результатов является обязанностью участника. | ||
+ | |||
==Требования к описанию алгоритма распознавания== | ==Требования к описанию алгоритма распознавания== | ||
Требуется предоставить Word или PDF документ на русском языке с описанием Вашего алгоритма по следующему шаблону: | Требуется предоставить Word или PDF документ на русском языке с описанием Вашего алгоритма по следующему шаблону: | ||
- | + | # Идентификация <br />Никнейм и адрес электронной почты. | |
- | Никнейм и адрес электронной почты. | + | # Аннотация <br />4-6 предложений, объясняющих общий подход к построению алгоритма, включающих, например, принципы генерации или отбора признаков и метод обучения.<br /> |
- | + | # Генерация и отбор признаков <br />Описание метода генерации и/или отбора признаков изображений. Список и общее описание выбранных признаков. <br /> | |
- | 4-6 предложений, объясняющих общий подход к построению алгоритма, включающих, например, принципы генерации или отбора признаков и метод обучения. | + | # Процесс обучения<br />Описание деталей метода обучения, использованного для построения алгоритма. Если комбинировались или объединялись разные методы, опишите каким образом. |
- | + | # Описание программы алгоритма <br />Для каждой функции опишите:<br /> | |
- | Описание метода генерации и/или отбора признаков изображений. Список и общее описание выбранных признаков. | + | #*входные переменные |
- | + | #*выходные переменные | |
- | Описание деталей метода обучения, использованного для построения алгоритма. Если комбинировались или объединялись разные методы, опишите каким образом. | + | #*что функция делает<br /> |
- | + | #:Все программные файлы должны быть присланы в том же письме в отдельном архиве. Сам код должен содержать подробные и понятные комментарии. <br /> | |
- | Для каждой функции опишите: | + | # Зависимости<br />Список зависимостей, библиотек, функций, пакетов или код других сторонних компаний, использованных для создания алгоритма. |
- | + | # Инструкция по воспроизведению (аналог README файла)<br />Пошаговая инструкция для создания проекта из приведенного кода. | |
- | + | # Дополнительные комментарии и наблюдения <br />Любые дополнительные комментарии или наблюдения, которые у Вас есть по поводу данных, модели или процесса улучшения модели. | |
- | + | # Графики<br />Графики или картинки, которые Вы сделали из данных или в процессе обучения и которые показались Вам полезными или интересными. | |
- | Все программные файлы должны быть присланы в том же письме в отдельном архиве. Сам код должен содержать подробные и понятные комментарии. | + | # Ссылки<br />Необходимые ссылки или другие внешние источники информации. |
- | + | <br /> | |
- | Список зависимостей, библиотек, функций, пакетов или код других сторонних компаний, использованных для создания алгоритма. | + | [[Категория:Конкурсы]] |
- | + | [[:Категория:Конкурсы]] | |
- | Пошаговая инструкция для создания проекта из приведенного кода. | + | |
- | + | ||
- | Любые дополнительные комментарии или наблюдения, которые у Вас есть по поводу данных, модели или процесса улучшения модели. | + | |
- | + | ||
- | Графики или картинки, которые Вы сделали из данных или в процессе обучения и которые показались Вам полезными или интересными. | + | |
- | + | ||
- | Необходимые ссылки или другие внешние источники информации. | + |
Версия 12:12, 26 сентября 2014
Задача распознавания контактной информации на изображениях Avito.ru — конкурс по решению прикладной задачи из области анализа изображений, проводимый в рамках 10-й Международной конференции «Интеллектуализация обработки информации-2014» (ИОИ-2014), Греция, о. Крит, 4-11 октября 2014.
Участвовать в конкурсе могут все желающие. Особенно приветствуется участие в конкурсе студентов, аспирантов и молодых ученых, поскольку это уникальная возможность познакомиться с актуальной прикладной задачей машинного обучения и попробовать в деле свои знания и навыки.
Конкурс проводится компанией Avito.ru при организационной поддержке компании Форексис (ссылка).
Старт конкурса – 29.09.2014.
Вопросы организаторам конкурса можно задавать в обсуждении этой страницы (ссылка).
Avito.ru
Avito.ru является самым большим в России сайтом объявлений. Миллионы людей ежедневно заходят на портал, чтобы продать или купить практически всё, что пожелают: от цифровой техники и одежды до автомобилей и недвижимости. Объявления размещают частные лица, предприниматели и компании, поэтому на Avito.ru можно купить как бывшие в употреблении вещи, так и абсолютно новые товары.
Миссия Avito.ru — соединить продавцов и покупателей по всей России, изменив их повседневную жизнь к лучшему.
На Avito.ru более 24 миллионов активных объявлений и каждый день огромное количество объявлений создается или изменяется. Эффективность Avito.ru в значительной степени зависит от качества заполнения содержания объявлений, поскольку качественные объявления позволяют покупателям оперативно находить подходящие предложения, а продавцам - продавать свои товары за считанные часы.
Описание задачи
По правилам Avito.ru в объявлении контактная информация продавца (например, телефон, e-mail, ссылка на сайт) должна быть указана в соответствующих текстовых полях. Это позволяет эффективно находить дубликаты объявлений, организовывать черные списки недобросовестных продавцов и выявлять другие нарушения. Типичным нарушением является заполнение текстовых полей объявления недействительной контактной информацией, в тоже время, на изображении предоставляется актуальная информация.
Цель конкурса – создание эффективного алгоритма распознавания изображений, содержащих контактную информацию.
Ниже приведены два примера изображений с контактной информацией.
Описание данных
Исходная выборка, выборка А, содержит 41 122 изображения, классифицированных на два класса:
- 1 – имеется контактная информация (12031),
- 0 - нет контактной информации (29091).
Выборка А используется для настройки алгоритмов участниками.
Еще 10 000 изображений являются тестовыми, выборка Б, – ответы по ним известны только организаторам. Тестовые данные будут использоваться для составления промежуточного рейтинга участников (ссылка), который, согласно правилам (ссылка), обновляется два раза в неделю.
И, наконец, третья выборка, выборка В, – контрольная, предоставляется участникам на третьем этапе конкурса и содержит 10 000 изображений. Контрольная выборка будет использоваться для определения победителей конкурса. Подробнее об этапах конкурса (ссылка).
Изображения имеют формат jpg, ответы по обучающей выборке представлены в csv-файле в формате Id, label, где Id – имя файла изображения, а label – метка класса, 0 или 1.
Данные можно скачать по ссылкам:
Выборка А(ссылка) – папка содержит обучающие картинки в формате jpg.
Выборка Б(ссылка) - папка содержит тестовые картинки в формате jpg.
Метки классов объектов обучающей выборки (ссылка) – csv-файле содержит метки классов для выборки А.
Функционал качества алгоритма распознавания
Качество работы алгоритмов распознавания оценивается показателем AUC – площадь под ROC-кривой (http://www.machinelearning.ru/wiki/index.php?title=ROC-%D0%BA%D1%80%D0%B8%D0%B2%D0%B0%D1%8F).
Реализация функционала качества AUC в среде Matlab:
[X,Y,T,AUC] = perfcurve(class,y_pred,posclass); (http://www.mathworks.com/help/stats/perfcurve.html)
Регистрация участников
Для регистрации в конкурсе участнику необходимо до 24 октября 2014 года 23:59 прислать письмо на адрес competition.Avito.2014@forecsys.ru с темой «Регистрация», содержащее никнейм участника – имя/псевдоним, которое будет отображаться в предварительном рейтинге участников, формируемом в течение первого этапа. Электронный адрес отправителя письма будет использоваться для идентификации участника.
Этапы и сроки проведения конкурса
Конкурс проходит в три этапа.
Этап первый: настройка алгоритмов распознавания
Этап проходит с момента объявления конкурса 29.09.2014 и до 31 октября 2014 года, 23:59 по московскому времени.
В течение этого времени участники настраивают свои алгоритмы на обучающей части данных конкурсной задачи (выборка А).
Для проверки качества алгоритмов и составления предварительного рейтинга результатов участники отправляют файл с результатами на выборке Б на почту competition.Avito.2014@forecsys.ru, указав в теме письма «Результаты Б: Никнейм участника» (письмо должно быть отправлено с того же электронного адреса, что и при регистрации участника).
Результаты представляются в csv-формате (образец файла здесь(ссылка)). Формат имени файла “YYYYMMDD_Никнейм участника_Результаты_Б_version1.csv”. Файл с результатами содержит два столбца: в первом столбце указаны идентификаторы изображений (имена файлов), а во втором – вещественные оценки вероятностей нахождения на картинках контактной информации. Значения оценок вероятностей должны принадлежать отрезку [0,1]. Пропуски и строковые не допускаются.
Два раза в неделю – понедельник и четверг до 23:59 по московскому времени – осуществляется прием писем с оценками вероятностей для выборки Б для составления очередного предварительного рейтинга участников. В течение следующего рабочего дня будет обновлен предварительных рейтинг результатов участников (ссылка). Для расчета рейтинга используются результаты участника, полученные в последнем письме.
Этап второй: сбор алгоритмов участников
Этап занимает 2 дня – 3 и 4 ноября 2014 года. Участники должны прислать файл с описанием алгоритма (ссылка), а также ZIP-архив c файлами программы алгоритма (ссылка). Программа алгоритма будет использована для проверки воспроизводимости результатов участника на контрольной выборке В. Участники, не приславшие вовремя свои модели, не смогут претендовать на победу в конкурсе. Требования к описанию алгоритмов (ссылка) и программному обеспечению (ссылка).
Этап третий: сбор результатов по контрольной выборке В
5 ноября 2014 года участникам предоставляется для скачивания контрольная выборка В.
С 5 по 7 ноября 2014 23:59 по московскому времени участники высылают результаты работы алгоритмов на выборке В (образец файла здесь(ссылка)) на почтовый адрес competition.Avito.2014@forecsys.ru, указав в теме письма «Результаты В: Никнейм участника», Формат имени файла “YYYYMMDD_Никнейм участника_Результаты_В_version1.csv”.
Последние присланные участником результаты до 7 ноября 2014 23:59 на контрольной выборке В будут использованы при определении победителей конкурса.
Процедура определения победителей и призовой фонд
Победителем конкурса (первое место) станет участник, алгоритм которого продемонстрировал наилучший результат на контрольной выборке В.
Второе место займет участник, показавший наилучший результат на контрольной выборке В среди тех участников, которые использовали только некоммерческое ПО (ссылка). В случае, если первое место занял участник, пользующийся только некоммерческим ПО, второе место достанется следующему по оценке качества алгоритма по результатам на выборке В среди тех, кто использовал только некоммерческое ПО.
Воспроизводимость результата работы алгоритма участника с использованием присланной ранее программы алгоритма является обязательным условием получения призового места. Предоставление организаторам необходимого ПО и помощь в воспроизведении результатов является обязанностью участника.
Денежная премия:
- 1-е место 100 000 рублей (без учета налогов).
- 2-е место 50 000 рублей (без учета налогов).
- 1-е место 100 000 рублей (без учета налогов).
Публикация презентаций победителей
После объявления победителей им предоставляется возможность опубликовать презентации своих алгоритмов на портале MachineLearning.ru в течение пяти дней. Презентация должна быть в формате pdf и давать представление о том, на чем основан и как работает алгоритм.
Требования к программному обеспечению
Приветствуется, в первую очередь, использование программного обеспечения (ПО), которое не требует лицензии для коммерческого использования. Использование коммерческого ПО также допускается.
К ПО предъявляется одно общее требование – возможность воспроизведения организаторами результатов участника без приобретения каких-либо лицензий, например, используя тестовые версии соответствующего ПО, которые находятся в открытом доступе на сайте производителя.
Предоставление организаторам необходимого ПО и помощь в воспроизведении результатов является обязанностью участника.
Требования к описанию алгоритма распознавания
Требуется предоставить Word или PDF документ на русском языке с описанием Вашего алгоритма по следующему шаблону:
- Идентификация
Никнейм и адрес электронной почты. - Аннотация
4-6 предложений, объясняющих общий подход к построению алгоритма, включающих, например, принципы генерации или отбора признаков и метод обучения.
- Генерация и отбор признаков
Описание метода генерации и/или отбора признаков изображений. Список и общее описание выбранных признаков.
- Процесс обучения
Описание деталей метода обучения, использованного для построения алгоритма. Если комбинировались или объединялись разные методы, опишите каким образом. - Описание программы алгоритма
Для каждой функции опишите:
- входные переменные
- выходные переменные
- что функция делает
- Все программные файлы должны быть присланы в том же письме в отдельном архиве. Сам код должен содержать подробные и понятные комментарии.
- Зависимости
Список зависимостей, библиотек, функций, пакетов или код других сторонних компаний, использованных для создания алгоритма. - Инструкция по воспроизведению (аналог README файла)
Пошаговая инструкция для создания проекта из приведенного кода. - Дополнительные комментарии и наблюдения
Любые дополнительные комментарии или наблюдения, которые у Вас есть по поводу данных, модели или процесса улучшения модели. - Графики
Графики или картинки, которые Вы сделали из данных или в процессе обучения и которые показались Вам полезными или интересными. - Ссылки
Необходимые ссылки или другие внешние источники информации.