Конкурс Avito.ru-2014: распознавание контактной информации на изображениях

Материал из MachineLearning.

Перейти к: навигация, поиск

Содержание

Задача распознавания контактной информации на изображениях Avito.ru — конкурс по решению прикладной задачи из области анализа изображений, проводимый в рамках 10-й Международной конференции «Интеллектуализация обработки информации-2014» (ИОИ-2014), Греция, о. Крит, 4-11 октября 2014.

Участвовать в конкурсе могут все желающие. Особенно приветствуется участие в конкурсе студентов, аспирантов и молодых ученых, поскольку это уникальная возможность познакомиться с актуальной прикладной задачей машинного обучения и попробовать в деле свои знания и навыки.

Конкурс проводится компанией Avito.ru при организационной поддержке компании Форексис (ссылка).

Старт конкурса – 29.09.2014.

Вопросы организаторам конкурса можно задавать в обсуждении этой страницы (ссылка).

Avito.ru

Avito.ru является самым большим в России сайтом объявлений. Миллионы людей ежедневно заходят на портал, чтобы продать или купить практически всё, что пожелают: от цифровой техники и одежды до автомобилей и недвижимости. Объявления размещают частные лица, предприниматели и компании, поэтому на Avito.ru можно купить как бывшие в употреблении вещи, так и абсолютно новые товары.

Миссия Avito.ru — соединить продавцов и покупателей по всей России, изменив их повседневную жизнь к лучшему.

На Avito.ru более 24 миллионов активных объявлений и каждый день огромное количество объявлений создается или изменяется. Эффективность Avito.ru в значительной степени зависит от качества заполнения содержания объявлений, поскольку качественные объявления позволяют покупателям оперативно находить подходящие предложения, а продавцам - продавать свои товары за считанные часы.

Описание задачи

По правилам Avito.ru в объявлении контактная информация продавца (например, телефон, e-mail, ссылка на сайт) должна быть указана в соответствующих текстовых полях. Это позволяет эффективно находить дубликаты объявлений, организовывать черные списки недобросовестных продавцов и выявлять другие нарушения. Типичным нарушением является заполнение текстовых полей объявления недействительной контактной информацией, в тоже время, на изображении предоставляется актуальная информация.

Цель конкурса – создание эффективного алгоритма распознавания изображений, содержащих контактную информацию.

Ниже приведены два примера изображений с контактной информацией.

Описание данных

Исходная выборка, выборка А, содержит 41 122 изображения, классифицированных на два класса:

  • 1 – имеется контактная информация (12031),
  • 0 - нет контактной информации (29091).

Выборка А используется для настройки алгоритмов участниками.

Еще 10 000 изображений являются тестовыми, выборка Б, – ответы по ним известны только организаторам. Тестовые данные будут использоваться для составления промежуточного рейтинга участников (ссылка), который, согласно правилам (ссылка), обновляется два раза в неделю.

И, наконец, третья выборка, выборка В, – контрольная, предоставляется участникам на третьем этапе конкурса и содержит 10 000 изображений. Контрольная выборка будет использоваться для определения победителей конкурса. Подробнее об этапах конкурса (ссылка).

Изображения имеют формат jpg, ответы по обучающей выборке представлены в csv-файле в формате Id, label, где Id – имя файла изображения, а label – метка класса, 0 или 1.

Данные можно скачать по ссылкам:
Выборка А(ссылка) – папка содержит обучающие картинки в формате jpg.
Выборка Б(ссылка) - папка содержит тестовые картинки в формате jpg.
Метки классов объектов обучающей выборки (ссылка) – csv-файле содержит метки классов для выборки А.

Функционал качества алгоритма распознавания

Качество работы алгоритмов распознавания оценивается показателем AUC – площадь под ROC-кривой (http://www.machinelearning.ru/wiki/index.php?title=ROC-%D0%BA%D1%80%D0%B8%D0%B2%D0%B0%D1%8F).

Реализация функционала качества AUC в среде Matlab:

[X,Y,T,AUC] = perfcurve(class,y_pred,posclass); (http://www.mathworks.com/help/stats/perfcurve.html)

Регистрация участников

Для регистрации в конкурсе участнику необходимо до 24 октября 2014 года 23:59 прислать письмо на адрес competition.Avito.2014@forecsys.ru с темой «Регистрация», содержащее никнейм участника – имя/псевдоним, которое будет отображаться в предварительном рейтинге участников, формируемом в течение первого этапа. Электронный адрес отправителя письма будет использоваться для идентификации участника.

Этапы и сроки проведения конкурса

Конкурс проходит в три этапа.

Этап первый: настройка алгоритмов распознавания

Этап проходит с момента объявления конкурса 29.09.2014 и до 31 октября 2014 года, 23:59 по московскому времени.

В течение этого времени участники настраивают свои алгоритмы на обучающей части данных конкурсной задачи (выборка А).

Для проверки качества алгоритмов и составления предварительного рейтинга результатов участники отправляют файл с результатами на выборке Б на почту competition.Avito.2014@forecsys.ru, указав в теме письма «Результаты Б: Никнейм участника» (письмо должно быть отправлено с того же электронного адреса, что и при регистрации участника).

Результаты представляются в csv-формате (образец файла здесь(ссылка)). Формат имени файла “YYYYMMDD_Никнейм участника_Результаты_Б_version1.csv”. Файл с результатами содержит два столбца: в первом столбце указаны идентификаторы изображений (имена файлов), а во втором – вещественные оценки вероятностей нахождения на картинках контактной информации. Значения оценок вероятностей должны принадлежать отрезку [0,1]. Пропуски и строковые не допускаются.

Два раза в неделю – понедельник и четверг до 23:59 по московскому времени – осуществляется прием писем с оценками вероятностей для выборки Б для составления очередного предварительного рейтинга участников. В течение следующего рабочего дня будет обновлен предварительных рейтинг результатов участников (ссылка). Для расчета рейтинга используются результаты участника, полученные в последнем письме.

Этап второй: сбор алгоритмов участников

Этап занимает 2 дня – 3 и 4 ноября 2014 года. Участники должны прислать файл с описанием алгоритма (ссылка), а также ZIP-архив c файлами программы алгоритма (ссылка). Программа алгоритма будет использована для проверки воспроизводимости результатов участника на контрольной выборке В. Участники, не приславшие вовремя свои модели, не смогут претендовать на победу в конкурсе. Требования к описанию алгоритмов (ссылка) и программному обеспечению (ссылка).

Этап третий: сбор результатов по контрольной выборке В

5 ноября 2014 года участникам предоставляется для скачивания контрольная выборка В.

С 5 по 7 ноября 2014 23:59 по московскому времени участники высылают результаты работы алгоритмов на выборке В (образец файла здесь(ссылка)) на почтовый адрес competition.Avito.2014@forecsys.ru, указав в теме письма «Результаты В: Никнейм участника», Формат имени файла “YYYYMMDD_Никнейм участника_Результаты_В_version1.csv”.

Последние присланные участником результаты до 7 ноября 2014 23:59 на контрольной выборке В будут использованы при определении победителей конкурса.

Процедура определения победителей и призовой фонд

Победителем конкурса (первое место) станет участник, алгоритм которого продемонстрировал наилучший результат на контрольной выборке В.

Второе место займет участник, показавший наилучший результат на контрольной выборке В среди тех участников, которые использовали только некоммерческое ПО (ссылка). В случае, если первое место занял участник, пользующийся только некоммерческим ПО, второе место достанется следующему по оценке качества алгоритма по результатам на выборке В среди тех, кто использовал только некоммерческое ПО.

Воспроизводимость результата работы алгоритма участника с использованием присланной ранее программы алгоритма является обязательным условием получения призового места. Предоставление организаторам необходимого ПО и помощь в воспроизведении результатов является обязанностью участника.

Денежная премия:

1-е место 100 000 рублей (без учета налогов).
2-е место 50 000 рублей (без учета налогов).

Публикация презентаций победителей

После объявления победителей им предоставляется возможность опубликовать презентации своих алгоритмов на портале MachineLearning.ru в течение пяти дней. Презентация должна быть в формате pdf и давать представление о том, на чем основан и как работает алгоритм.

Требования к программному обеспечению

Приветствуется, в первую очередь, использование программного обеспечения (ПО), которое не требует лицензии для коммерческого использования. Использование коммерческого ПО также допускается.

К ПО предъявляется одно общее требование – возможность воспроизведения организаторами результатов участника без приобретения каких-либо лицензий, например, используя тестовые версии соответствующего ПО, которые находятся в открытом доступе на сайте производителя.

Предоставление организаторам необходимого ПО и помощь в воспроизведении результатов является обязанностью участника.

Требования к описанию алгоритма распознавания

Требуется предоставить Word или PDF документ на русском языке с описанием Вашего алгоритма по следующему шаблону:

  1. Идентификация
    Никнейм и адрес электронной почты.
  2. Аннотация
    4-6 предложений, объясняющих общий подход к построению алгоритма, включающих, например, принципы генерации или отбора признаков и метод обучения.
  3. Генерация и отбор признаков
    Описание метода генерации и/или отбора признаков изображений. Список и общее описание выбранных признаков.
  4. Процесс обучения
    Описание деталей метода обучения, использованного для построения алгоритма. Если комбинировались или объединялись разные методы, опишите каким образом.
  5. Описание программы алгоритма
    Для каждой функции опишите:
    • входные переменные
    • выходные переменные
    • что функция делает
    Все программные файлы должны быть присланы в том же письме в отдельном архиве. Сам код должен содержать подробные и понятные комментарии.
  6. Зависимости
    Список зависимостей, библиотек, функций, пакетов или код других сторонних компаний, использованных для создания алгоритма.
  7. Инструкция по воспроизведению (аналог README файла)
    Пошаговая инструкция для создания проекта из приведенного кода.
  8. Дополнительные комментарии и наблюдения
    Любые дополнительные комментарии или наблюдения, которые у Вас есть по поводу данных, модели или процесса улучшения модели.
  9. Графики
    Графики или картинки, которые Вы сделали из данных или в процессе обучения и которые показались Вам полезными или интересными.
  10. Ссылки
    Необходимые ссылки или другие внешние источники информации.


Категория:Конкурсы

Личные инструменты