Конкурс Avito-2016: Распознавание марки и модели автомашин на изображениях
Материал из MachineLearning.
Конкурс по распознаванию марки и модели автомашин на изображениях Avito-2016 — это конкурс по решению прикладной задачи из области анализа изображений, проводимый при информационной поддержке Международной конференции «Математические методы распознавания образов».
Организаторы конкурса – компания «КЕХ еКоммерц» (сайт объявлений Avito) и ее партнер – компания Форексис.
Вопросы организаторам конкурса можно задавать по электронной почте на адрес competitions@forecsys.ru с указанием в теме письма «Avito-2016: Вопрос».
С информацией об организаторе конкурса, правилах его проведения, количестве наград, сроках, месте и порядке их получения можно ознакомиться здесь.
С предыдущими конкурсами Avito-2014 и Avito-2015 можно ознакомиться на соответствующих страницах.
Новый конкурс В настоящий момент проходит конкурс Avito-2016 по распознаванию категории объявления |
Ключевые даты конкурса
1 этап:
- 21 марта 2016 года – Старт конкурса
- до 23:59 10 апреля 2016 года – Регистрация участников, предоставление участниками дополнительных внешних данных, используемых для обучения
- до 23:59 14 апреля 2016 года – Обучение и получение результатов от участников
- 15 апреля 2016 года - Предоставление ответов для тестовой выборки B, а также внешних данных, используемых участниками
- до 23:59 24 апреля 2016 года - Дообучение и сбор MD5-сумм алгоритмов участников
2 этап:
- 25 апреля 2016 года – Предоставление контрольной выборки
- до 23:59 28 апреля 2016 года – Сбор результатов алгоритмов на контрольной выборке
до 23:59 10 мая 2016 года – Определение победителей и проверка на воспроизводимость результатов, публикация презентаций победителей на странице конкурса
Avito.ru
Avito входит в десятку самых посещаемых интернет-проектов в стране. Пользователи опубликовали на сайте больше 33 миллионов объявлений, миллионы людей каждый день предлагают или ищут здесь что-то для себя. По данным счетчика Liveinternet, Avito – самый посещаемый сайт автомобильной тематики в рунете.
Описание задачи
Каждый день на Avito появляется более 20 000 новых объявлений о продаже подержанных автомобилей. Для этого пользователи загружают их фотографии и заполоняют характеристики своего автомобиля через специальную форму. При этом многие автолюбители по фотографиям могут мгновенно определить большинство из этих характеристик и их заполнение избыточно. В этом конкурсе мы предлагаем участникам разработать алгоритм, который определял бы по одной фотографии внешнего вида автомобиля его марку и модель. Для этого мы выдаем достаточно большую выборку фотографий автомобилей, с указанием марок и моделей, а также описываем пример построения такого алгоритма на открытых технологиях с достаточно хорошим качеством классификации. Возможно, именно ваш алгоритм превзойдет по качеству продвинутых автолюбителей и упростит жизнь миллионам пользователей?
Цель конкурса – создание эффективного алгоритма классификации изображений автомобилей.
Ниже приведены примеры изображений автомобилей и их марок/моделей.
Марка: Land Rover | Марка: Mercedes-Benz | Марка: BMW | Марка: Mazda |
Модель: Range Rover Evoque | Модель: C-класс | Модель: 3 серия | Модель: CX-5 |
Описание данных
Обучающая выборка, выборка A, содержит 309 710 изображений, классифицированных на 236 классов. Эта выборка используется участниками для настройки своих алгоритмов.
Тестовая выборка, выборка B, содержит 92 667 изображений, метки классов для них известны только организаторам. Эта выборка будет использоваться для составления промежуточного рейтинга участников, который обновляется два раза в неделю.
Контрольная выборка, выборка C, содержит 217 092 изображений и предоставляется участникам на втором этапе конкурса. Контрольная выборка будет использоваться для определения победителей конкурса.
Изображения имеют формат jpg, ответы по обучающей выборке представлены в csv-файле в формате id, label, где id – имя файла изображения, а label – метка класса.
Данные можно получить после регистрации в конкурсе.
Внешние данные
Для обучения моделей разрешается использовать внешние коллекции изображений с автомобилями, размеченные на рассматриваемые в конкурсе классы. При этом внешние коллекции должны быть разрешены к коммерческому использованию для обучения моделей. В случае использования внешних коллекций участник обязан прислать информацию об этом и соответствующую размеченную выборку на адрес competitions@forecsys.ru до 10 апреля. 15 апреля организаторы сделают эту коллекцию доступной всем участникам вместе с публикацией выборки B.
Функционал качества алгоритма распознавания
Качество работы алгоритмов распознавания оценивается как доля верно соотнесенных к своему классу изображений.
Пример простой модели, построенный на основе Caffe framework.
Регистрация участников
Для регистрации в конкурсе потенциальному участнику необходимо до 23:59 10 апреля 2016 года прислать письмо по электронной почте на адрес competitions@forecsys.ru с темой «Avito-2016: Регистрация», содержащее никнейм участника – имя/псевдоним, которое будет отображаться в предварительном рейтинге участников, формируемом в течение первого этапа. Адрес электронной почты участника будет использоваться для его идентификации.
Заявкой на регистрацию в конкурсе Вы подтверждаете, что ознакомились и согласны с Правилами конкурса.
Этапы и сроки проведения конкурса
Конкурс проводится в два этапа.
Этап первый: настройка алгоритмов распознавания
Первый этап проводится с момента объявления конкурса 21 марта 2016 года и до 23:59 24 апреля 2016 года.
На данном этапе участники, используя обучающую выборку А, настраивают свои алгоритмы классификации изображений на 236 классов.
Для проверки качества алгоритмов и составления предварительного рейтинга результатов участники отправляют файл с результатами на выборке B по электронной почте на адрес competitions@forecsys.ru, указав в теме письма «Результаты B: Никнейм участника» (письмо должно быть отправлено с того же электронного адреса, что и при регистрации участника).
Результаты представляются в csv-формате (образец файла здесь). Рекомендуемый формат имени файла “YYYYMMDD_Никнейм_участника_Results_B_version1.csv”. Файл с результатами содержит два столбца: в первом столбце указаны идентификаторы изображений (имена файлов), а во втором – идентификаторы класса, к которому алгоритм сопоставил эти изображения. Пропуски и строковые значения не допускаются.
Два раза в неделю – понедельник и четверг до 23:59 по московскому времени – осуществляется прием писем с предсказаниями классов для выборки B для составления очередного предварительного рейтинга участников. В течение следующего рабочего дня будет обновлен предварительный рейтинг результатов участников. Для расчета рейтинга используются результаты участника, полученные в последнем письме.
10 апреля 2016 года – крайний срок предоставления дополнительных внешних данных, используемых для обучения. После 10 апреля запрещено использовать любые дополнительные данные.
15 апреля 2016 года участникам предоставляется для скачивания ответы для выборки B, которые участники могут использовать для дальнейшей настройки алгоритмов. Также становятся доступными внешние данные, которые использовались одним из участников.
До 23:59 24 апреля участники должны прислать MD5-сумму ZIP-архива c файлами окончательной версии программы алгоритма. Сами программы будут собираться позднее и будут использованы для проверки воспроизводимости результатов участника, претендующего на победу в конкурсе, на контрольной выборке C. Участники, не приславшие вовремя MD5-суммы своих алгоритмов, не смогут претендовать на победу в конкурсе.
Этап второй: применение алгоритмов на контрольной выборке C
Второй этап проводится с 25 апреля по 23:59 28 апреля 2016 года
25 апреля 2016 года участникам предоставляется для скачивания контрольная выборка C.
До 28 апреля 2016 года участники высылают результаты работы алгоритмов на выборке C по электронной почте на адрес competitions@forecsys.ru, указав в теме письма «Результаты C: Никнейм участника». Рекомендуемый формат имени файла “YYYYMMDD_Никнейм_участника_Results_C_version1.csv”.
Последние присланные участником результаты до 23:59 28 апреля 2016 года на контрольной выборке C будут использованы при определении победителей конкурса.
Процедура определения победителей и призовой фонд
Денежная премия:
- 1-е место 100 000 рублей (без учета налогов).
- 2-е место 50 000 рублей (без учета налогов).
Jobs:
- Возможность устроиться в Avito специалистом по анализу данных.
- Если Вы заинтересованы в работе в Avito, сообщите об этом в регистрационном письме.
Победителем конкурса (первое место) станет участник, алгоритм которого продемонстрировал наилучший результат на контрольной выборке C.
Второе место займет участник, алгоритм которого продемонстрировал второй по качеству результат на контрольной выборке С.
Информация о победителях будет опубликована на странице конкурса до 10 мая 2016 г.
Воспроизводимость результата работы алгоритма участника с использованием присылаемой участником программы алгоритма является обязательным условием признания этого участника победителем конкурса. Предоставление организаторам необходимого ПО и помощь в воспроизведении результатов работы алгоритма является обязанностью участника. Кроме того, участник должен подготовить описание алгоритма.
Публикация презентаций победителей
Победителям конкурса предоставляется возможность опубликовать презентации своих алгоритмов на странице конкурса. Презентация должна кратко и наглядно иллюстрировать подход участника к решению задачи, применяемые методы и полученные результаты. Формат и содержание презентации согласуются с организаторами.
Требования к программному обеспечению
Призовое место участник может занять только в том случае, если он использовал программное обеспечение (ПО), которое не требует лицензии для коммерческого использования.
К ПО предъявляется требование – возможность воспроизведения организаторами результатов работы алгоритмов участников.
ПО должно определять класс изображения, используя только данные из этого изображения. Запрещается использовать различные внешние данные, которые не были согласованы с организаторами, или свойства других изображений. Например, не допускается использовать модель, которая бы искала похожие изображения в выборке C и использовала их в качестве подсказки.
Предоставление организаторам необходимого ПО и помощь в воспроизведении результатов является обязанностью участника.
Требования к описанию алгоритма распознавания
Требуется предоставить файл формата .doc, docx или .pdf с описанием алгоритма на русском языке по следующему шаблону:
- Идентификация
Никнейм и адрес электронной почты участника. - Аннотация
4-6 предложений, объясняющих общий подход к построению алгоритма, включающих, например, принципы генерации или отбора признаков и метод обучения.
- Генерация и отбор признаков
Описание метода генерации и/или отбора признаков изображений. Список и общее описание выбранных признаков.
- Процесс обучения
Описание деталей метода обучения, использованного для построения алгоритма. Если комбинировались или объединялись разные методы, опишите каким образом. - Описание программы алгоритма
Для каждой функции:
- входные переменные
- выходные переменные
- что функция делает
- Зависимости
Список зависимостей, библиотек, функций, пакетов или код других сторонних компаний, использованных для создания алгоритма. - Инструкция по воспроизведению (аналог README файла)
Пошаговая инструкция для создания проекта из приведенного кода. - Дополнительные комментарии и наблюдения
Любые дополнительные комментарии или наблюдения по поводу данных, алгоритма или процесса улучшения алгоритма. - Графики
Графики или картинки, которые были сделаны из данных или в процессе обучения и которые показались полезными или интересными. - Ссылки
Необходимые ссылки или другие внешние источники информации.
Подстраницы
Конкурс Avito-2016: Распознавание марки и модели автомашин на изображениях/Рейтинг участников |