Конкурс Avito.ru-2014: распознавание контактной информации на изображениях
Материал из MachineLearning.
(→Этап первый: настройка алгоритмов распознавания) |
|||
(130 промежуточных версий не показаны.) | |||
Строка 1: | Строка 1: | ||
{{TOCright}} | {{TOCright}} | ||
- | ''' | + | '''Конкурс по распознаванию контактной информации на изображениях Avito.ru''' — конкурс по решению прикладной задачи из области анализа изображений, проводимый при информационной поддержке 10-й Международной конференции [http://www.mmro.ru/ «Интеллектуализация обработки информации-2014»] (ИОИ-2014), Греция, о. Крит, 4-11 октября 2014 года. |
- | + | Организаторы конкурса – компания [http://www.avito.ru/ Avito.ru] и ее партнер – компания [http://www.forecsys.ru/ Форексис]. | |
- | + | Вопросы организаторам конкурса можно задавать в [[Обсуждение:Конкурс_Avito.ru-2014:_распознавание_контактной_информации_на_изображениях|обсуждении ]] страницы конкурса для зарегистрированных на портале [http://www.machinelearning.ru/ MachineLearning.ru] пользователей, либо по электронной почте на адрес [mailto:competition.avito.2014@forecsys.ru competition.avito.2014@forecsys.ru] с указанием в теме письма «Вопрос». | |
- | + | С информацией об организаторе конкурса, правилах его проведения, количестве наград, сроках, месте и порядке их получения можно ознакомиться [http://www.machinelearning.ru/wiki/images/4/4e/Avito_rules.pdf здесь]. | |
+ | [[Конкурс_Avito.ru-2014:_распознавание_контактной_информации_на_изображениях/Рейтинг_участников|Итоги конкурса]]. | ||
+ | {{notice| | ||
+ | '''Новый конкурс'''<br/> | ||
+ | В настоящий момент проходит [[Конкурс Avito-2016:_Распознавание_категории_объявления|конкурс Avito-2016 по распознаванию категории объявления]] | ||
+ | }} | ||
==Ключевые даты конкурса== | ==Ключевые даты конкурса== | ||
- | ''' | + | '''1 октября 2014 года''' – Старт конкурса <br /> |
- | ''' | + | '''до 23:59 4 ноября''' – [[Конкурс_Avito.ru-2014:_распознавание_контактной_информации_на_изображениях#.D0.A0.D0.B5.D0.B3.D0.B8.D1.81.D1.82.D1.80.D0.B0.D1.86.D0.B8.D1.8F_.D1.83.D1.87.D0.B0.D1.81.D1.82.D0.BD.D0.B8.D0.BA.D0.BE.D0.B2|Регистрация]] участников<br /> |
- | ''' | + | '''до 23:59 13 ноября''' – [[Конкурс_Avito.ru-2014:_распознавание_контактной_информации_на_изображениях#.D0.AD.D1.82.D0.B0.D0.BF_.D0.BF.D0.B5.D1.80.D0.B2.D1.8B.D0.B9:_.D0.BD.D0.B0.D1.81.D1.82.D1.80.D0.BE.D0.B9.D0.BA.D0.B0_.D0.B0.D0.BB.D0.B3.D0.BE.D1.80.D0.B8.D1.82.D0.BC.D0.BE.D0.B2_.D1.80.D0.B0.D1.81.D0.BF.D0.BE.D0.B7.D0.BD.D0.B0.D0.B2.D0.B0.D0.BD.D0.B8.D1.8F|Обучение и сбор]] алгоритмов участников<br /> |
- | + | '''14 ноября''' – [[Конкурс_Avito.ru-2014:_распознавание_контактной_информации_на_изображениях#.D0.AD.D1.82.D0.B0.D0.BF_.D0.B2.D1.82.D0.BE.D1.80.D0.BE.D0.B9:_.D0.BF.D1.80.D0.B8.D0.BC.D0.B5.D0.BD.D0.B5.D0.BD.D0.B8.D0.B5_.D0.B0.D0.BB.D0.B3.D0.BE.D1.80.D0.B8.D1.82.D0.BC.D0.BE.D0.B2_.D0.BD.D0.B0_.D0.BA.D0.BE.D0.BD.D1.82.D1.80.D0.BE.D0.BB.D1.8C.D0.BD.D0.BE.D0.B9_.D0.B2.D1.8B.D0.B1.D0.BE.D1.80.D0.BA.D0.B5_C|Предоставление]] контрольной выборки C и ответов для выборки B<br /> | |
- | ''' | + | '''до 23:59 18 ноября''' – [[Конкурс_Avito.ru-2014:_распознавание_контактной_информации_на_изображениях#.D0.AD.D1.82.D0.B0.D0.BF_.D0.B2.D1.82.D0.BE.D1.80.D0.BE.D0.B9:_.D0.BF.D1.80.D0.B8.D0.BC.D0.B5.D0.BD.D0.B5.D0.BD.D0.B8.D0.B5_.D0.B0.D0.BB.D0.B3.D0.BE.D1.80.D0.B8.D1.82.D0.BC.D0.BE.D0.B2_.D0.BD.D0.B0_.D0.BA.D0.BE.D0.BD.D1.82.D1.80.D0.BE.D0.BB.D1.8C.D0.BD.D0.BE.D0.B9_.D0.B2.D1.8B.D0.B1.D0.BE.D1.80.D0.BA.D0.B5_C|Сбор результатов]] алгоритмов на контрольной выборке C<br /> |
- | ''' | + | '''19 ноября – 10 декабря''' – [[Конкурс_Avito.ru-2014:_распознавание_контактной_информации_на_изображениях#.D0.9F.D1.80.D0.BE.D1.86.D0.B5.D0.B4.D1.83.D1.80.D0.B0_.D0.BE.D0.BF.D1.80.D0.B5.D0.B4.D0.B5.D0.BB.D0.B5.D0.BD.D0.B8.D1.8F_.D0.BF.D0.BE.D0.B1.D0.B5.D0.B4.D0.B8.D1.82.D0.B5.D0.BB.D0.B5.D0.B9_.D0.B8_.D0.BF.D1.80.D0.B8.D0.B7.D0.BE.D0.B2.D0.BE.D0.B9_.D1.84.D0.BE.D0.BD.D0.B4|Определение победителей]] и [[Конкурс_Avito.ru-2014:_распознавание_контактной_информации_на_изображениях#.D0.9F.D1.80.D0.BE.D1.86.D0.B5.D0.B4.D1.83.D1.80.D0.B0_.D0.BE.D0.BF.D1.80.D0.B5.D0.B4.D0.B5.D0.BB.D0.B5.D0.BD.D0.B8.D1.8F_.D0.BF.D0.BE.D0.B1.D0.B5.D0.B4.D0.B8.D1.82.D0.B5.D0.BB.D0.B5.D0.B9_.D0.B8_.D0.BF.D1.80.D0.B8.D0.B7.D0.BE.D0.B2.D0.BE.D0.B9_.D1.84.D0.BE.D0.BD.D0.B4|проверка на воспроизводимость]] результатов, [[Конкурс_Avito.ru-2014:_распознавание_контактной_информации_на_изображениях#.D0.9F.D1.83.D0.B1.D0.BB.D0.B8.D0.BA.D0.B0.D1.86.D0.B8.D1.8F_.D0.BF.D1.80.D0.B5.D0.B7.D0.B5.D0.BD.D1.82.D0.B0.D1.86.D0.B8.D0.B9_.D0.BF.D0.BE.D0.B1.D0.B5.D0.B4.D0.B8.D1.82.D0.B5.D0.BB.D0.B5.D0.B9|публикация презентаций]] победителей на странице конкурса |
- | '''10 | + | |
==Avito.ru== | ==Avito.ru== | ||
- | Avito.ru является самым большим в России сайтом объявлений. Миллионы людей ежедневно заходят на портал, чтобы продать или купить практически всё, что пожелают: от цифровой техники и одежды до автомобилей и недвижимости. Объявления размещают частные лица, предприниматели и компании, поэтому на Avito.ru можно купить как бывшие в употреблении вещи, так и абсолютно новые товары. | + | [http://www.avito.ru/ Avito.ru] является самым большим в России сайтом объявлений. Миллионы людей ежедневно заходят на портал, чтобы продать или купить практически всё, что пожелают: от цифровой техники и одежды до автомобилей и недвижимости. Объявления размещают частные лица, предприниматели и компании, поэтому на Avito.ru можно купить как бывшие в употреблении вещи, так и абсолютно новые товары. |
Миссия Avito.ru — соединить продавцов и покупателей по всей России, изменив их повседневную жизнь к лучшему. | Миссия Avito.ru — соединить продавцов и покупателей по всей России, изменив их повседневную жизнь к лучшему. | ||
- | На Avito.ru более 24 миллионов активных объявлений и каждый день огромное количество объявлений создается или изменяется. Эффективность Avito.ru в значительной степени зависит от качества заполнения содержания объявлений, поскольку качественные объявления позволяют покупателям оперативно находить подходящие предложения, а продавцам - продавать свои товары за считанные часы. | + | На Avito.ru более 24 миллионов активных объявлений и каждый день огромное количество объявлений создается или изменяется. Эффективность Avito.ru в значительной степени зависит от качества заполнения содержания объявлений, поскольку качественные объявления позволяют покупателям оперативно находить подходящие предложения, а продавцам - продавать свои товары за считанные часы. |
==Описание задачи== | ==Описание задачи== | ||
- | По правилам Avito.ru в объявлении контактная информация продавца (например, телефон, e-mail, ссылка на сайт) должна быть указана в соответствующих текстовых полях. Это позволяет эффективно находить дубликаты объявлений, организовывать черные списки недобросовестных продавцов и выявлять другие нарушения. Типичным нарушением является заполнение текстовых полей объявления недействительной контактной информацией, в | + | По правилам Avito.ru в объявлении контактная информация продавца (например, телефон, e-mail, ссылка на сайт) должна быть указана в соответствующих текстовых полях. Это позволяет организовать удобный поиск для покупателей, эффективно находить дубликаты объявлений, организовывать черные списки недобросовестных продавцов и выявлять другие нарушения. Типичным нарушением является заполнение текстовых полей объявления недействительной контактной информацией, в то же время, на изображении предоставляется актуальная информация. |
'''Цель конкурса''' – создание эффективного алгоритма распознавания изображений, содержащих контактную информацию. | '''Цель конкурса''' – создание эффективного алгоритма распознавания изображений, содержащих контактную информацию. | ||
Строка 31: | Строка 35: | ||
Ниже приведены два примера изображений с контактной информацией. | Ниже приведены два примера изображений с контактной информацией. | ||
- | [[Изображение:Add1.png]] | + | [[Изображение:Add1.png|400px]] |
- | [[Изображение:Add2.png| | + | [[Изображение:Add2.png|250px]] |
+ | <br clear="all" /> | ||
==Описание данных== | ==Описание данных== | ||
Исходная выборка, '''выборка A''', содержит 41 122 изображения, классифицированных на два класса: | Исходная выборка, '''выборка A''', содержит 41 122 изображения, классифицированных на два класса: | ||
- | * 1 – | + | * 1 – в изображении присутствует контактная информация (12031), |
- | * 0 | + | * 0 – в изображении отсутствует контактная информация (29091). |
Выборка A используется для настройки алгоритмов участниками. | Выборка A используется для настройки алгоритмов участниками. | ||
- | Еще 10 000 изображений | + | Еще 10 000 изображений, '''выборка B''', являются тестовыми – ответы по ним известны только организаторам. Тестовые данные будут использоваться для составления промежуточного [[Конкурс_Avito.ru-2014:_распознавание_контактной_информации_на_изображениях/Рейтинг_участников|рейтинга]] участников, который обновляется [[Конкурс_Avito.ru-2014:_распознавание_контактной_информации_на_изображениях#.D0.AD.D1.82.D0.B0.D0.BF_.D0.BF.D0.B5.D1.80.D0.B2.D1.8B.D0.B9:_.D0.BD.D0.B0.D1.81.D1.82.D1.80.D0.BE.D0.B9.D0.BA.D0.B0_.D0.B0.D0.BB.D0.B3.D0.BE.D1.80.D0.B8.D1.82.D0.BC.D0.BE.D0.B2_.D1.80.D0.B0.D1.81.D0.BF.D0.BE.D0.B7.D0.BD.D0.B0.D0.B2.D0.B0.D0.BD.D0.B8.D1.8F|два раза в неделю]] . |
- | + | Третья выборка, '''выборка C''', – контрольная, предоставляется участникам на втором этапе конкурса и содержит 10 000 изображений. Контрольная выборка будет использоваться для определения победителей конкурса. Подробнее об [[Конкурс_Avito.ru-2014:_распознавание_контактной_информации_на_изображениях#.D0.AD.D1.82.D0.B0.D0.BF_.D0.BF.D0.B5.D1.80.D0.B2.D1.8B.D0.B9:_.D0.BD.D0.B0.D1.81.D1.82.D1.80.D0.BE.D0.B9.D0.BA.D0.B0_.D0.B0.D0.BB.D0.B3.D0.BE.D1.80.D0.B8.D1.82.D0.BC.D0.BE.D0.B2_.D1.80.D0.B0.D1.81.D0.BF.D0.BE.D0.B7.D0.BD.D0.B0.D0.B2.D0.B0.D0.BD.D0.B8.D1.8F|этапах]] конкурса . | |
Изображения имеют формат jpg, ответы по обучающей выборке представлены в csv-файле в формате Id, label, где Id – имя файла изображения, а label – метка класса, 0 или 1. | Изображения имеют формат jpg, ответы по обучающей выборке представлены в csv-файле в формате Id, label, где Id – имя файла изображения, а label – метка класса, 0 или 1. | ||
+ | {{notice| | ||
+ | '''Update 08.10.2014'''<br/> | ||
+ | Использование структуры id изображений в алгоритме не допускается, id изображений в контрольной выборке C будут случайными. | ||
+ | }} | ||
Данные можно скачать по ссылкам: <br /> | Данные можно скачать по ссылкам: <br /> | ||
- | [http://machinelearning.ru/ Выборка A] – папка содержит обучающие | + | [http://machinelearning.ru/data/competition.avito.2014/avito_train.zip Выборка A] – папка содержит обучающие изображения в формате jpg.<br /> |
- | [http://machinelearning.ru/ Выборка B] | + | [http://machinelearning.ru/data/competition.avito.2014/avito_test.zip Выборка B] – папка содержит тестовые изображения в формате jpg.<br /> |
- | [http://machinelearning.ru/data/competition.avito.2014/avito_train_labels.zip Метки классов объектов обучающей выборки] – csv-файл содержит метки классов для выборки A. | + | [http://machinelearning.ru/data/competition.avito.2014/avito_control.zip Выборка C] – папка содержит контрольные изображения в формате jpg.<br /> |
+ | [http://machinelearning.ru/data/competition.avito.2014/avito_train_labels.zip Метки классов объектов обучающей выборки] – csv-файл содержит метки классов для выборки A.<br /> | ||
+ | [[Media:Avito_test_labels.zip|Метки классов объектов тестовой выборки]] – csv-файл содержит метки классов для выборки В. | ||
==Функционал качества алгоритма распознавания== | ==Функционал качества алгоритма распознавания== | ||
Строка 58: | Строка 69: | ||
[X,Y,T,AUC] = perfcurve(labels,scores,posclass); | [X,Y,T,AUC] = perfcurve(labels,scores,posclass); | ||
</pre> | </pre> | ||
+ | |||
==Регистрация участников== | ==Регистрация участников== | ||
- | Для регистрации в конкурсе участнику необходимо до ''' | + | Для регистрации в конкурсе потенциальному участнику необходимо до '''23:59 4 ноября 2014 года''' прислать письмо по электронной почте на адрес [mailto:competition.avito.2014@forecsys.ru competition.avito.2014@forecsys.ru] с темой «Регистрация», содержащее никнейм участника – имя/псевдоним, которое будет отображаться в предварительном рейтинге участников, формируемом в течение первого этапа. Адрес электронной почты участника будет использоваться для его идентификации. |
+ | |||
+ | Заявкой на регистрацию в конкурсе Вы подтверждаете, что ознакомились и согласны с [[Media:Avito_rules.pdf|Правилами конкурса]]. | ||
==Этапы и сроки проведения конкурса== | ==Этапы и сроки проведения конкурса== | ||
- | Конкурс | + | Конкурс проводится в два этапа. |
===Этап первый: настройка алгоритмов распознавания=== | ===Этап первый: настройка алгоритмов распознавания=== | ||
- | + | Первый этап проводится с момента объявления конкурса '''1 октября 2014 года''' и до '''23:59 13 ноября 2014 года'''. | |
- | + | На данном этапе участники, используя обучающую выборку А, настраивают свои алгоритмы классификации изображений на два класса: содержащие и не содержащие контактную информацию. Алгоритм оценивает вероятность принадлежности изображения к классу изображений, содержащих контактную информацию. | |
- | Для проверки качества алгоритмов и составления предварительного рейтинга результатов участники отправляют файл с результатами на выборке B на | + | Для проверки качества алгоритмов и составления предварительного рейтинга результатов участники отправляют файл с результатами на выборке B по электронной почте на адрес [mailto:competition.avito.2014@forecsys.ru competition.avito.2014@forecsys.ru], указав в теме письма «Результаты B: Никнейм участника» (письмо должно быть отправлено с того же электронного адреса, что и при регистрации участника). |
- | Результаты представляются в csv-формате (образец файла [[Media: | + | Результаты представляются в csv-формате (образец файла [[Media:20140930 Ivanov Results B version1.zip|''здесь'']]). Рекомендуемый формат имени файла “YYYYMMDD_Никнейм_участника_Results_B_version1.csv”. Файл с результатами содержит два столбца: в первом столбце указаны идентификаторы изображений (имена файлов), а во втором – вещественные оценки вероятностей нахождения на изображениях контактной информации. Значения оценок вероятностей должны принадлежать отрезку [0,1]. Пропуски и строковые значения не допускаются. |
- | Два раза в неделю – '''понедельник и четверг до 23:59''' по московскому времени – осуществляется прием писем с оценками вероятностей для выборки B для составления очередного предварительного рейтинга участников. В течение следующего рабочего дня будет обновлен | + | Два раза в неделю – '''понедельник и четверг до 23:59''' по московскому времени – осуществляется прием писем с оценками вероятностей для выборки B для составления очередного предварительного рейтинга участников. В течение следующего рабочего дня будет обновлен предварительный [[Конкурс_Avito.ru-2014:_распознавание_контактной_информации_на_изображениях/Рейтинг_участников|рейтинг результатов]] участников. Для расчета рейтинга используются результаты участника, полученные в '''последнем письме'''. |
- | + | {{notice| | |
- | + | '''Update 11.11.2014'''<br/> | |
+ | [[Конкурс_Avito.ru-2014:_распознавание_контактной_информации_на_изображениях/Рейтинг_участников|Рейтинг участников]] зафиксирован и больше не обновляется ввиду того, что уже выложены метки классов объектов тестовой выборки В. | ||
+ | }} | ||
- | + | 7 ноября 2014 года участникам предоставляется для скачивания ответы для выборки B, которые участники могут использовать для дальнейшей настройки алгоритмов. | |
- | + | ||
- | ''' | + | До '''23:59 13 ноября''' участники должны прислать ZIP-архив c [[Конкурс_Avito.ru-2014:_распознавание_контактной_информации_на_изображениях#.D0.A2.D1.80.D0.B5.D0.B1.D0.BE.D0.B2.D0.B0.D0.BD.D0.B8.D1.8F_.D0.BA_.D0.BF.D1.80.D0.BE.D0.B3.D1.80.D0.B0.D0.BC.D0.BC.D0.BD.D0.BE.D0.BC.D1.83_.D0.BE.D0.B1.D0.B5.D1.81.D0.BF.D0.B5.D1.87.D0.B5.D0.BD.D0.B8.D1.8E|файлами программы алгоритма]]. Программа алгоритма будет использована для проверки воспроизводимости результатов участника, претендующего на победу в конкурсе, на контрольной выборке C. Участники, не приславшие вовремя свои алгоритмы, не смогут претендовать на победу в конкурсе. |
- | Последние присланные участником результаты до ''' | + | ===Этап второй: применение алгоритмов на контрольной выборке C=== |
+ | Второй этап проводится с '''14 ноября''' по '''23:59 18 ноября 2014 года''' | ||
+ | |||
+ | '''14 ноября 2014 года''' участникам предоставляется для скачивания контрольная выборка C. | ||
+ | |||
+ | '''С 15 ноября по 23:59 18 ноября 2014 года''' участники высылают результаты работы алгоритмов на выборке C (образец файла [[Media:20141115 Ivanov Results C version1.zip|''здесь'']]) по электронной почте на адрес [mailto:competition.avito.2014@forecsys.ru competition.avito.2014@forecsys.ru], указав в теме письма «Результаты C: Никнейм участника». Рекомендуемый формат имени файла “YYYYMMDD_Никнейм_участника_Results_C_version1.csv”. | ||
+ | |||
+ | Последние присланные участником результаты до '''23:59 18 ноября 2014 года''' на контрольной выборке C будут использованы при определении победителей конкурса. | ||
==Процедура определения победителей и призовой фонд== | ==Процедура определения победителей и призовой фонд== | ||
'''Победителем конкурса''' (первое место) станет участник, алгоритм которого продемонстрировал наилучший результат на контрольной выборке C. | '''Победителем конкурса''' (первое место) станет участник, алгоритм которого продемонстрировал наилучший результат на контрольной выборке C. | ||
- | '''Второе место займет''' участник, | + | '''Второе место займет''' участник, алгоритм которого продемонстрировал наилучший результат на контрольной выборке C среди тех участников, которые использовали только [[Конкурс_по_распознаванию_контактной_информации_на_изображениях_%28Конкурс_Avito.ru_2014%29#.D0.A2.D1.80.D0.B5.D0.B1.D0.BE.D0.B2.D0.B0.D0.BD.D0.B8.D1.8F_.D0.BA_.D0.BF.D1.80.D0.BE.D0.B3.D1.80.D0.B0.D0.BC.D0.BC.D0.BD.D0.BE.D0.BC.D1.83_.D0.BE.D0.B1.D0.B5.D1.81.D0.BF.D0.B5.D1.87.D0.B5.D0.BD.D0.B8.D1.8E|некоммерческое ПО]]. В случае, если первое место занял участник, использовавший только некоммерческое ПО, второе место достанется следующему участнику по оценке качества алгоритма по результатам на выборке C среди тех, кто использовал только некоммерческое ПО. |
- | '''Воспроизводимость результата работы алгоритма''' участника с использованием присланной ранее программы алгоритма является обязательным условием | + | Информация о победителях будет опубликована на странице конкурса '''до 10 декабря 2014 г.''' |
+ | |||
+ | '''Воспроизводимость результата работы алгоритма''' участника с использованием присланной ранее программы алгоритма является обязательным условием признания этого участника победителем конкурса. Предоставление организаторам необходимого ПО и помощь в воспроизведении результатов работы алгоритма является обязанностью участника. Кроме того, участник должен подготовить [[Конкурс_Avito.ru-2014:_распознавание_контактной_информации_на_изображениях#.D0.A2.D1.80.D0.B5.D0.B1.D0.BE.D0.B2.D0.B0.D0.BD.D0.B8.D1.8F_.D0.BA_.D0.BE.D0.BF.D0.B8.D1.81.D0.B0.D0.BD.D0.B8.D1.8E_.D0.B0.D0.BB.D0.B3.D0.BE.D1.80.D0.B8.D1.82.D0.BC.D0.B0_.D1.80.D0.B0.D1.81.D0.BF.D0.BE.D0.B7.D0.BD.D0.B0.D0.B2.D0.B0.D0.BD.D0.B8.D1.8F|описание алгоритма]]. | ||
Денежная премия: <br /> | Денежная премия: <br /> | ||
Строка 96: | Строка 120: | ||
==Публикация презентаций победителей== | ==Публикация презентаций победителей== | ||
- | Победителям конкурса предоставляется возможность опубликовать презентации своих алгоритмов на | + | Победителям конкурса предоставляется возможность опубликовать презентации своих алгоритмов на странице конкурса. Презентация должна кратко и наглядно иллюстрировать подход участника к решению задачи, применяемые методы и полученные результаты. Формат и содержание презентации согласуются с организаторами. |
==Требования к программному обеспечению== | ==Требования к программному обеспечению== | ||
Приветствуется, в первую очередь, использование программного обеспечения (ПО), которое не требует лицензии для коммерческого использования. Использование коммерческого ПО также допускается. | Приветствуется, в первую очередь, использование программного обеспечения (ПО), которое не требует лицензии для коммерческого использования. Использование коммерческого ПО также допускается. | ||
- | К ПО предъявляется одно общее требование – возможность воспроизведения организаторами результатов | + | К ПО предъявляется одно общее требование – возможность воспроизведения организаторами результатов работы алгоритмов участников без приобретения каких-либо лицензий, например, используя тестовые версии соответствующего ПО, которые находятся в открытом доступе на сайте производителя ПО. |
- | Предоставление организаторам необходимого ПО и помощь в воспроизведении результатов является обязанностью участника. | + | Предоставление организаторам необходимого ПО и помощь в воспроизведении результатов является обязанностью участника. |
==Требования к описанию алгоритма распознавания== | ==Требования к описанию алгоритма распознавания== | ||
- | Требуется предоставить | + | Требуется предоставить файл формата .doc, docx или .pdf с описанием алгоритма на русском языке по следующему шаблону: |
- | # '''Идентификация''' <br />Никнейм и адрес электронной почты. | + | # '''Идентификация''' <br />Никнейм и адрес электронной почты участника. |
# '''Аннотация''' <br />4-6 предложений, объясняющих общий подход к построению алгоритма, включающих, например, принципы генерации или отбора признаков и метод обучения.<br /> | # '''Аннотация''' <br />4-6 предложений, объясняющих общий подход к построению алгоритма, включающих, например, принципы генерации или отбора признаков и метод обучения.<br /> | ||
# '''Генерация и отбор признаков''' <br />Описание метода генерации и/или отбора признаков изображений. Список и общее описание выбранных признаков. <br /> | # '''Генерация и отбор признаков''' <br />Описание метода генерации и/или отбора признаков изображений. Список и общее описание выбранных признаков. <br /> | ||
# '''Процесс обучения'''<br />Описание деталей метода обучения, использованного для построения алгоритма. Если комбинировались или объединялись разные методы, опишите каким образом. | # '''Процесс обучения'''<br />Описание деталей метода обучения, использованного для построения алгоритма. Если комбинировались или объединялись разные методы, опишите каким образом. | ||
- | # '''Описание программы алгоритма''' <br />Для каждой функции | + | # '''Описание программы алгоритма''' <br />Для каждой функции:<br /> |
#*входные переменные | #*входные переменные | ||
#*выходные переменные | #*выходные переменные | ||
#*что функция делает<br /> | #*что функция делает<br /> | ||
- | |||
# '''Зависимости'''<br />Список зависимостей, библиотек, функций, пакетов или код других сторонних компаний, использованных для создания алгоритма. | # '''Зависимости'''<br />Список зависимостей, библиотек, функций, пакетов или код других сторонних компаний, использованных для создания алгоритма. | ||
# '''Инструкция по воспроизведению''' (аналог README файла)<br />Пошаговая инструкция для создания проекта из приведенного кода. | # '''Инструкция по воспроизведению''' (аналог README файла)<br />Пошаговая инструкция для создания проекта из приведенного кода. | ||
- | # '''Дополнительные комментарии и наблюдения''' <br />Любые дополнительные комментарии или наблюдения | + | # '''Дополнительные комментарии и наблюдения''' <br />Любые дополнительные комментарии или наблюдения по поводу данных, алгоритма или процесса улучшения алгоритма. |
- | # '''Графики'''<br />Графики или картинки, которые | + | # '''Графики'''<br />Графики или картинки, которые были сделаны из данных или в процессе обучения и которые показались полезными или интересными. |
- | # '''Ссылки'''<br />Необходимые ссылки или другие внешние источники информации. | + | # '''Ссылки'''<br/> Необходимые ссылки или другие внешние источники информации. |
- | + | ||
- | [[Категория: | + | == Подстраницы == |
+ | {{Служебная:Prefixindex/Конкурс Avito.ru-2014: распознавание контактной информации на изображениях/}} | ||
+ | |||
+ | [[Категория:Конкурс Avito-2014]] |
Текущая версия
Конкурс по распознаванию контактной информации на изображениях Avito.ru — конкурс по решению прикладной задачи из области анализа изображений, проводимый при информационной поддержке 10-й Международной конференции «Интеллектуализация обработки информации-2014» (ИОИ-2014), Греция, о. Крит, 4-11 октября 2014 года.
Организаторы конкурса – компания Avito.ru и ее партнер – компания Форексис.
Вопросы организаторам конкурса можно задавать в обсуждении страницы конкурса для зарегистрированных на портале MachineLearning.ru пользователей, либо по электронной почте на адрес competition.avito.2014@forecsys.ru с указанием в теме письма «Вопрос».
С информацией об организаторе конкурса, правилах его проведения, количестве наград, сроках, месте и порядке их получения можно ознакомиться здесь.
Новый конкурс В настоящий момент проходит конкурс Avito-2016 по распознаванию категории объявления |
Ключевые даты конкурса
1 октября 2014 года – Старт конкурса
до 23:59 4 ноября – Регистрация участников
до 23:59 13 ноября – Обучение и сбор алгоритмов участников
14 ноября – Предоставление контрольной выборки C и ответов для выборки B
до 23:59 18 ноября – Сбор результатов алгоритмов на контрольной выборке C
19 ноября – 10 декабря – Определение победителей и проверка на воспроизводимость результатов, публикация презентаций победителей на странице конкурса
Avito.ru
Avito.ru является самым большим в России сайтом объявлений. Миллионы людей ежедневно заходят на портал, чтобы продать или купить практически всё, что пожелают: от цифровой техники и одежды до автомобилей и недвижимости. Объявления размещают частные лица, предприниматели и компании, поэтому на Avito.ru можно купить как бывшие в употреблении вещи, так и абсолютно новые товары.
Миссия Avito.ru — соединить продавцов и покупателей по всей России, изменив их повседневную жизнь к лучшему.
На Avito.ru более 24 миллионов активных объявлений и каждый день огромное количество объявлений создается или изменяется. Эффективность Avito.ru в значительной степени зависит от качества заполнения содержания объявлений, поскольку качественные объявления позволяют покупателям оперативно находить подходящие предложения, а продавцам - продавать свои товары за считанные часы.
Описание задачи
По правилам Avito.ru в объявлении контактная информация продавца (например, телефон, e-mail, ссылка на сайт) должна быть указана в соответствующих текстовых полях. Это позволяет организовать удобный поиск для покупателей, эффективно находить дубликаты объявлений, организовывать черные списки недобросовестных продавцов и выявлять другие нарушения. Типичным нарушением является заполнение текстовых полей объявления недействительной контактной информацией, в то же время, на изображении предоставляется актуальная информация.
Цель конкурса – создание эффективного алгоритма распознавания изображений, содержащих контактную информацию.
Ниже приведены два примера изображений с контактной информацией.
Описание данных
Исходная выборка, выборка A, содержит 41 122 изображения, классифицированных на два класса:
- 1 – в изображении присутствует контактная информация (12031),
- 0 – в изображении отсутствует контактная информация (29091).
Выборка A используется для настройки алгоритмов участниками.
Еще 10 000 изображений, выборка B, являются тестовыми – ответы по ним известны только организаторам. Тестовые данные будут использоваться для составления промежуточного рейтинга участников, который обновляется два раза в неделю .
Третья выборка, выборка C, – контрольная, предоставляется участникам на втором этапе конкурса и содержит 10 000 изображений. Контрольная выборка будет использоваться для определения победителей конкурса. Подробнее об этапах конкурса .
Изображения имеют формат jpg, ответы по обучающей выборке представлены в csv-файле в формате Id, label, где Id – имя файла изображения, а label – метка класса, 0 или 1.
Update 08.10.2014 Использование структуры id изображений в алгоритме не допускается, id изображений в контрольной выборке C будут случайными. |
Данные можно скачать по ссылкам:
Выборка A – папка содержит обучающие изображения в формате jpg.
Выборка B – папка содержит тестовые изображения в формате jpg.
Выборка C – папка содержит контрольные изображения в формате jpg.
Метки классов объектов обучающей выборки – csv-файл содержит метки классов для выборки A.
Метки классов объектов тестовой выборки – csv-файл содержит метки классов для выборки В.
Функционал качества алгоритма распознавания
Качество работы алгоритмов распознавания оценивается показателем AUC – площадь под ROC-кривой.
Реализация функционала качества AUC в среде Matlab:
[X,Y,T,AUC] = perfcurve(labels,scores,posclass);
Регистрация участников
Для регистрации в конкурсе потенциальному участнику необходимо до 23:59 4 ноября 2014 года прислать письмо по электронной почте на адрес competition.avito.2014@forecsys.ru с темой «Регистрация», содержащее никнейм участника – имя/псевдоним, которое будет отображаться в предварительном рейтинге участников, формируемом в течение первого этапа. Адрес электронной почты участника будет использоваться для его идентификации.
Заявкой на регистрацию в конкурсе Вы подтверждаете, что ознакомились и согласны с Правилами конкурса.
Этапы и сроки проведения конкурса
Конкурс проводится в два этапа.
Этап первый: настройка алгоритмов распознавания
Первый этап проводится с момента объявления конкурса 1 октября 2014 года и до 23:59 13 ноября 2014 года.
На данном этапе участники, используя обучающую выборку А, настраивают свои алгоритмы классификации изображений на два класса: содержащие и не содержащие контактную информацию. Алгоритм оценивает вероятность принадлежности изображения к классу изображений, содержащих контактную информацию.
Для проверки качества алгоритмов и составления предварительного рейтинга результатов участники отправляют файл с результатами на выборке B по электронной почте на адрес competition.avito.2014@forecsys.ru, указав в теме письма «Результаты B: Никнейм участника» (письмо должно быть отправлено с того же электронного адреса, что и при регистрации участника).
Результаты представляются в csv-формате (образец файла здесь). Рекомендуемый формат имени файла “YYYYMMDD_Никнейм_участника_Results_B_version1.csv”. Файл с результатами содержит два столбца: в первом столбце указаны идентификаторы изображений (имена файлов), а во втором – вещественные оценки вероятностей нахождения на изображениях контактной информации. Значения оценок вероятностей должны принадлежать отрезку [0,1]. Пропуски и строковые значения не допускаются.
Два раза в неделю – понедельник и четверг до 23:59 по московскому времени – осуществляется прием писем с оценками вероятностей для выборки B для составления очередного предварительного рейтинга участников. В течение следующего рабочего дня будет обновлен предварительный рейтинг результатов участников. Для расчета рейтинга используются результаты участника, полученные в последнем письме.
Update 11.11.2014 Рейтинг участников зафиксирован и больше не обновляется ввиду того, что уже выложены метки классов объектов тестовой выборки В. |
7 ноября 2014 года участникам предоставляется для скачивания ответы для выборки B, которые участники могут использовать для дальнейшей настройки алгоритмов.
До 23:59 13 ноября участники должны прислать ZIP-архив c файлами программы алгоритма. Программа алгоритма будет использована для проверки воспроизводимости результатов участника, претендующего на победу в конкурсе, на контрольной выборке C. Участники, не приславшие вовремя свои алгоритмы, не смогут претендовать на победу в конкурсе.
Этап второй: применение алгоритмов на контрольной выборке C
Второй этап проводится с 14 ноября по 23:59 18 ноября 2014 года
14 ноября 2014 года участникам предоставляется для скачивания контрольная выборка C.
С 15 ноября по 23:59 18 ноября 2014 года участники высылают результаты работы алгоритмов на выборке C (образец файла здесь) по электронной почте на адрес competition.avito.2014@forecsys.ru, указав в теме письма «Результаты C: Никнейм участника». Рекомендуемый формат имени файла “YYYYMMDD_Никнейм_участника_Results_C_version1.csv”.
Последние присланные участником результаты до 23:59 18 ноября 2014 года на контрольной выборке C будут использованы при определении победителей конкурса.
Процедура определения победителей и призовой фонд
Победителем конкурса (первое место) станет участник, алгоритм которого продемонстрировал наилучший результат на контрольной выборке C.
Второе место займет участник, алгоритм которого продемонстрировал наилучший результат на контрольной выборке C среди тех участников, которые использовали только некоммерческое ПО. В случае, если первое место занял участник, использовавший только некоммерческое ПО, второе место достанется следующему участнику по оценке качества алгоритма по результатам на выборке C среди тех, кто использовал только некоммерческое ПО.
Информация о победителях будет опубликована на странице конкурса до 10 декабря 2014 г.
Воспроизводимость результата работы алгоритма участника с использованием присланной ранее программы алгоритма является обязательным условием признания этого участника победителем конкурса. Предоставление организаторам необходимого ПО и помощь в воспроизведении результатов работы алгоритма является обязанностью участника. Кроме того, участник должен подготовить описание алгоритма.
Денежная премия:
- 1-е место 100 000 рублей (без учета налогов).
- 2-е место 50 000 рублей (без учета налогов).
- 1-е место 100 000 рублей (без учета налогов).
Публикация презентаций победителей
Победителям конкурса предоставляется возможность опубликовать презентации своих алгоритмов на странице конкурса. Презентация должна кратко и наглядно иллюстрировать подход участника к решению задачи, применяемые методы и полученные результаты. Формат и содержание презентации согласуются с организаторами.
Требования к программному обеспечению
Приветствуется, в первую очередь, использование программного обеспечения (ПО), которое не требует лицензии для коммерческого использования. Использование коммерческого ПО также допускается.
К ПО предъявляется одно общее требование – возможность воспроизведения организаторами результатов работы алгоритмов участников без приобретения каких-либо лицензий, например, используя тестовые версии соответствующего ПО, которые находятся в открытом доступе на сайте производителя ПО.
Предоставление организаторам необходимого ПО и помощь в воспроизведении результатов является обязанностью участника.
Требования к описанию алгоритма распознавания
Требуется предоставить файл формата .doc, docx или .pdf с описанием алгоритма на русском языке по следующему шаблону:
- Идентификация
Никнейм и адрес электронной почты участника. - Аннотация
4-6 предложений, объясняющих общий подход к построению алгоритма, включающих, например, принципы генерации или отбора признаков и метод обучения.
- Генерация и отбор признаков
Описание метода генерации и/или отбора признаков изображений. Список и общее описание выбранных признаков.
- Процесс обучения
Описание деталей метода обучения, использованного для построения алгоритма. Если комбинировались или объединялись разные методы, опишите каким образом. - Описание программы алгоритма
Для каждой функции:
- входные переменные
- выходные переменные
- что функция делает
- Зависимости
Список зависимостей, библиотек, функций, пакетов или код других сторонних компаний, использованных для создания алгоритма. - Инструкция по воспроизведению (аналог README файла)
Пошаговая инструкция для создания проекта из приведенного кода. - Дополнительные комментарии и наблюдения
Любые дополнительные комментарии или наблюдения по поводу данных, алгоритма или процесса улучшения алгоритма. - Графики
Графики или картинки, которые были сделаны из данных или в процессе обучения и которые показались полезными или интересными. - Ссылки
Необходимые ссылки или другие внешние источники информации.
Подстраницы
Конкурс Avito.ru-2014: распознавание контактной информации на изображениях/Рейтинг участников |