Конкурс Avito.ru-2014: распознавание контактной информации на изображениях

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
м (Регистрация участников)
 
(33 промежуточные версии не показаны)
Строка 4: Строка 4:
Организаторы конкурса – компания [http://www.avito.ru/ Avito.ru] и ее партнер – компания [http://www.forecsys.ru/ Форексис].
Организаторы конкурса – компания [http://www.avito.ru/ Avito.ru] и ее партнер – компания [http://www.forecsys.ru/ Форексис].
-
Вопросы организаторам конкурса можно задавать в [[Обсуждение:Конкурс_Avito.ru-2014:_распознавание_контактной_информации_на_изображениях|обсуждении ]] этой страницы для зарегистрированных на портале [http://www.machinelearning.ru/ MachineLearning.ru] пользователей, либо по почте [mailto:competition.avito.2014@forecsys.ru competition.avito.2014@forecsys.ru] с указанием в теме письма «Вопрос».
+
Вопросы организаторам конкурса можно задавать в [[Обсуждение:Конкурс_Avito.ru-2014:_распознавание_контактной_информации_на_изображениях|обсуждении ]] страницы конкурса для зарегистрированных на портале [http://www.machinelearning.ru/ MachineLearning.ru] пользователей, либо по электронной почте на адрес [mailto:competition.avito.2014@forecsys.ru competition.avito.2014@forecsys.ru] с указанием в теме письма «Вопрос».
-
Предварительный [[Конкурс_Avito.ru-2014:_распознавание_контактной_информации_на_изображениях/Рейтинг_участников|рейтинг участников]].
+
С информацией об организаторе конкурса, правилах его проведения, количестве наград, сроках, месте и порядке их получения можно ознакомиться [http://www.machinelearning.ru/wiki/images/4/4e/Avito_rules.pdf здесь].
 +
[[Конкурс_Avito.ru-2014:_распознавание_контактной_информации_на_изображениях/Рейтинг_участников|Итоги конкурса]].
 +
{{notice|
 +
'''Новый конкурс'''<br/>
 +
В настоящий момент проходит [[Конкурс Avito-2016:_Распознавание_категории_объявления|конкурс Avito-2016 по распознаванию категории объявления]]
 +
}}
==Ключевые даты конкурса==
==Ключевые даты конкурса==
'''1 октября 2014 года''' – Старт конкурса <br />
'''1 октября 2014 года''' – Старт конкурса <br />
'''до 23:59 4 ноября''' – [[Конкурс_Avito.ru-2014:_распознавание_контактной_информации_на_изображениях#.D0.A0.D0.B5.D0.B3.D0.B8.D1.81.D1.82.D1.80.D0.B0.D1.86.D0.B8.D1.8F_.D1.83.D1.87.D0.B0.D1.81.D1.82.D0.BD.D0.B8.D0.BA.D0.BE.D0.B2|Регистрация]] участников<br />
'''до 23:59 4 ноября''' – [[Конкурс_Avito.ru-2014:_распознавание_контактной_информации_на_изображениях#.D0.A0.D0.B5.D0.B3.D0.B8.D1.81.D1.82.D1.80.D0.B0.D1.86.D0.B8.D1.8F_.D1.83.D1.87.D0.B0.D1.81.D1.82.D0.BD.D0.B8.D0.BA.D0.BE.D0.B2|Регистрация]] участников<br />
-
'''до 23:59 11 ноября''' – [[Конкурс_Avito.ru-2014:_распознавание_контактной_информации_на_изображениях#.D0.AD.D1.82.D0.B0.D0.BF_.D0.BF.D0.B5.D1.80.D0.B2.D1.8B.D0.B9:_.D0.BD.D0.B0.D1.81.D1.82.D1.80.D0.BE.D0.B9.D0.BA.D0.B0_.D0.B0.D0.BB.D0.B3.D0.BE.D1.80.D0.B8.D1.82.D0.BC.D0.BE.D0.B2_.D1.80.D0.B0.D1.81.D0.BF.D0.BE.D0.B7.D0.BD.D0.B0.D0.B2.D0.B0.D0.BD.D0.B8.D1.8F|Обучение]] алгоритмов<br />
+
'''до 23:59 13 ноября''' – [[Конкурс_Avito.ru-2014:_распознавание_контактной_информации_на_изображениях#.D0.AD.D1.82.D0.B0.D0.BF_.D0.BF.D0.B5.D1.80.D0.B2.D1.8B.D0.B9:_.D0.BD.D0.B0.D1.81.D1.82.D1.80.D0.BE.D0.B9.D0.BA.D0.B0_.D0.B0.D0.BB.D0.B3.D0.BE.D1.80.D0.B8.D1.82.D0.BC.D0.BE.D0.B2_.D1.80.D0.B0.D1.81.D0.BF.D0.BE.D0.B7.D0.BD.D0.B0.D0.B2.D0.B0.D0.BD.D0.B8.D1.8F|Обучение и сбор]] алгоритмов участников<br />
-
'''до 23:59 13 ноября''' – [[Конкурс_Avito.ru-2014:_распознавание_контактной_информации_на_изображениях#.D0.AD.D1.82.D0.B0.D0.BF_.D0.BF.D0.B5.D1.80.D0.B2.D1.8B.D0.B9:_.D0.BD.D0.B0.D1.81.D1.82.D1.80.D0.BE.D0.B9.D0.BA.D0.B0_.D0.B0.D0.BB.D0.B3.D0.BE.D1.80.D0.B8.D1.82.D0.BC.D0.BE.D0.B2_.D1.80.D0.B0.D1.81.D0.BF.D0.BE.D0.B7.D0.BD.D0.B0.D0.B2.D0.B0.D0.BD.D0.B8.D1.8F|Сбор алгоритмов]] участников<br />
+
'''14 ноября''' – [[Конкурс_Avito.ru-2014:_распознавание_контактной_информации_на_изображениях#.D0.AD.D1.82.D0.B0.D0.BF_.D0.B2.D1.82.D0.BE.D1.80.D0.BE.D0.B9:_.D0.BF.D1.80.D0.B8.D0.BC.D0.B5.D0.BD.D0.B5.D0.BD.D0.B8.D0.B5_.D0.B0.D0.BB.D0.B3.D0.BE.D1.80.D0.B8.D1.82.D0.BC.D0.BE.D0.B2_.D0.BD.D0.B0_.D0.BA.D0.BE.D0.BD.D1.82.D1.80.D0.BE.D0.BB.D1.8C.D0.BD.D0.BE.D0.B9_.D0.B2.D1.8B.D0.B1.D0.BE.D1.80.D0.BA.D0.B5_C|Предоставление]] контрольной выборки C и ответов для выборки B<br />
'''14 ноября''' – [[Конкурс_Avito.ru-2014:_распознавание_контактной_информации_на_изображениях#.D0.AD.D1.82.D0.B0.D0.BF_.D0.B2.D1.82.D0.BE.D1.80.D0.BE.D0.B9:_.D0.BF.D1.80.D0.B8.D0.BC.D0.B5.D0.BD.D0.B5.D0.BD.D0.B8.D0.B5_.D0.B0.D0.BB.D0.B3.D0.BE.D1.80.D0.B8.D1.82.D0.BC.D0.BE.D0.B2_.D0.BD.D0.B0_.D0.BA.D0.BE.D0.BD.D1.82.D1.80.D0.BE.D0.BB.D1.8C.D0.BD.D0.BE.D0.B9_.D0.B2.D1.8B.D0.B1.D0.BE.D1.80.D0.BA.D0.B5_C|Предоставление]] контрольной выборки C и ответов для выборки B<br />
'''до 23:59 18 ноября''' – [[Конкурс_Avito.ru-2014:_распознавание_контактной_информации_на_изображениях#.D0.AD.D1.82.D0.B0.D0.BF_.D0.B2.D1.82.D0.BE.D1.80.D0.BE.D0.B9:_.D0.BF.D1.80.D0.B8.D0.BC.D0.B5.D0.BD.D0.B5.D0.BD.D0.B8.D0.B5_.D0.B0.D0.BB.D0.B3.D0.BE.D1.80.D0.B8.D1.82.D0.BC.D0.BE.D0.B2_.D0.BD.D0.B0_.D0.BA.D0.BE.D0.BD.D1.82.D1.80.D0.BE.D0.BB.D1.8C.D0.BD.D0.BE.D0.B9_.D0.B2.D1.8B.D0.B1.D0.BE.D1.80.D0.BA.D0.B5_C|Сбор результатов]] алгоритмов на контрольной выборке C<br />
'''до 23:59 18 ноября''' – [[Конкурс_Avito.ru-2014:_распознавание_контактной_информации_на_изображениях#.D0.AD.D1.82.D0.B0.D0.BF_.D0.B2.D1.82.D0.BE.D1.80.D0.BE.D0.B9:_.D0.BF.D1.80.D0.B8.D0.BC.D0.B5.D0.BD.D0.B5.D0.BD.D0.B8.D0.B5_.D0.B0.D0.BB.D0.B3.D0.BE.D1.80.D0.B8.D1.82.D0.BC.D0.BE.D0.B2_.D0.BD.D0.B0_.D0.BA.D0.BE.D0.BD.D1.82.D1.80.D0.BE.D0.BB.D1.8C.D0.BD.D0.BE.D0.B9_.D0.B2.D1.8B.D0.B1.D0.BE.D1.80.D0.BA.D0.B5_C|Сбор результатов]] алгоритмов на контрольной выборке C<br />
-
'''19 ноября – 9 декабря''' – [[Конкурс_Avito.ru-2014:_распознавание_контактной_информации_на_изображениях#.D0.9F.D1.80.D0.BE.D1.86.D0.B5.D0.B4.D1.83.D1.80.D0.B0_.D0.BE.D0.BF.D1.80.D0.B5.D0.B4.D0.B5.D0.BB.D0.B5.D0.BD.D0.B8.D1.8F_.D0.BF.D0.BE.D0.B1.D0.B5.D0.B4.D0.B8.D1.82.D0.B5.D0.BB.D0.B5.D0.B9_.D0.B8_.D0.BF.D1.80.D0.B8.D0.B7.D0.BE.D0.B2.D0.BE.D0.B9_.D1.84.D0.BE.D0.BD.D0.B4|Определение победителей]] и [[Конкурс_Avito.ru-2014:_распознавание_контактной_информации_на_изображениях#.D0.9F.D1.80.D0.BE.D1.86.D0.B5.D0.B4.D1.83.D1.80.D0.B0_.D0.BE.D0.BF.D1.80.D0.B5.D0.B4.D0.B5.D0.BB.D0.B5.D0.BD.D0.B8.D1.8F_.D0.BF.D0.BE.D0.B1.D0.B5.D0.B4.D0.B8.D1.82.D0.B5.D0.BB.D0.B5.D0.B9_.D0.B8_.D0.BF.D1.80.D0.B8.D0.B7.D0.BE.D0.B2.D0.BE.D0.B9_.D1.84.D0.BE.D0.BD.D0.B4|проверка на воспроизводимость]] результатов, [[Конкурс_Avito.ru-2014:_распознавание_контактной_информации_на_изображениях#.D0.9F.D1.83.D0.B1.D0.BB.D0.B8.D0.BA.D0.B0.D1.86.D0.B8.D1.8F_.D0.BF.D1.80.D0.B5.D0.B7.D0.B5.D0.BD.D1.82.D0.B0.D1.86.D0.B8.D0.B9_.D0.BF.D0.BE.D0.B1.D0.B5.D0.B4.D0.B8.D1.82.D0.B5.D0.BB.D0.B5.D0.B9|публикация презентаций]] победителей на портале [http://www.machinelearning.ru/ MachineLearning.ru]
+
'''19 ноября – 10 декабря''' – [[Конкурс_Avito.ru-2014:_распознавание_контактной_информации_на_изображениях#.D0.9F.D1.80.D0.BE.D1.86.D0.B5.D0.B4.D1.83.D1.80.D0.B0_.D0.BE.D0.BF.D1.80.D0.B5.D0.B4.D0.B5.D0.BB.D0.B5.D0.BD.D0.B8.D1.8F_.D0.BF.D0.BE.D0.B1.D0.B5.D0.B4.D0.B8.D1.82.D0.B5.D0.BB.D0.B5.D0.B9_.D0.B8_.D0.BF.D1.80.D0.B8.D0.B7.D0.BE.D0.B2.D0.BE.D0.B9_.D1.84.D0.BE.D0.BD.D0.B4|Определение победителей]] и [[Конкурс_Avito.ru-2014:_распознавание_контактной_информации_на_изображениях#.D0.9F.D1.80.D0.BE.D1.86.D0.B5.D0.B4.D1.83.D1.80.D0.B0_.D0.BE.D0.BF.D1.80.D0.B5.D0.B4.D0.B5.D0.BB.D0.B5.D0.BD.D0.B8.D1.8F_.D0.BF.D0.BE.D0.B1.D0.B5.D0.B4.D0.B8.D1.82.D0.B5.D0.BB.D0.B5.D0.B9_.D0.B8_.D0.BF.D1.80.D0.B8.D0.B7.D0.BE.D0.B2.D0.BE.D0.B9_.D1.84.D0.BE.D0.BD.D0.B4|проверка на воспроизводимость]] результатов, [[Конкурс_Avito.ru-2014:_распознавание_контактной_информации_на_изображениях#.D0.9F.D1.83.D0.B1.D0.BB.D0.B8.D0.BA.D0.B0.D1.86.D0.B8.D1.8F_.D0.BF.D1.80.D0.B5.D0.B7.D0.B5.D0.BD.D1.82.D0.B0.D1.86.D0.B8.D0.B9_.D0.BF.D0.BE.D0.B1.D0.B5.D0.B4.D0.B8.D1.82.D0.B5.D0.BB.D0.B5.D0.B9|публикация презентаций]] победителей на странице конкурса
==Avito.ru==
==Avito.ru==
Строка 38: Строка 42:
Исходная выборка, '''выборка A''', содержит 41 122 изображения, классифицированных на два класса:
Исходная выборка, '''выборка A''', содержит 41 122 изображения, классифицированных на два класса:
* 1 – в изображении присутствует контактная информация (12031),
* 1 – в изображении присутствует контактная информация (12031),
-
* 0 – в изображении отсутствует контактной информации (29091).
+
* 0 – в изображении отсутствует контактная информация (29091).
Выборка A используется для настройки алгоритмов участниками.
Выборка A используется для настройки алгоритмов участниками.
Строка 47: Строка 51:
Изображения имеют формат jpg, ответы по обучающей выборке представлены в csv-файле в формате Id, label, где Id – имя файла изображения, а label – метка класса, 0 или 1.
Изображения имеют формат jpg, ответы по обучающей выборке представлены в csv-файле в формате Id, label, где Id – имя файла изображения, а label – метка класса, 0 или 1.
 +
{{notice|
 +
'''Update 08.10.2014'''<br/>
 +
Использование структуры id изображений в алгоритме не допускается, id изображений в контрольной выборке C будут случайными.
 +
}}
Данные можно скачать по ссылкам: <br />
Данные можно скачать по ссылкам: <br />
[http://machinelearning.ru/data/competition.avito.2014/avito_train.zip Выборка A] – папка содержит обучающие изображения в формате jpg.<br />
[http://machinelearning.ru/data/competition.avito.2014/avito_train.zip Выборка A] – папка содержит обучающие изображения в формате jpg.<br />
[http://machinelearning.ru/data/competition.avito.2014/avito_test.zip Выборка B] – папка содержит тестовые изображения в формате jpg.<br />
[http://machinelearning.ru/data/competition.avito.2014/avito_test.zip Выборка B] – папка содержит тестовые изображения в формате jpg.<br />
-
[http://machinelearning.ru/data/competition.avito.2014/avito_train_labels.zip Метки классов объектов обучающей выборки] – csv-файл содержит метки классов для выборки A.
+
[http://machinelearning.ru/data/competition.avito.2014/avito_control.zip Выборка C] – папка содержит контрольные изображения в формате jpg.<br />
 +
[http://machinelearning.ru/data/competition.avito.2014/avito_train_labels.zip Метки классов объектов обучающей выборки] – csv-файл содержит метки классов для выборки A.<br />
 +
[[Media:Avito_test_labels.zip|Метки классов объектов тестовой выборки]] – csv-файл содержит метки классов для выборки В.
==Функционал качества алгоритма распознавания==
==Функционал качества алгоритма распознавания==
Строка 61: Строка 71:
==Регистрация участников==
==Регистрация участников==
-
Для регистрации в конкурсе участнику необходимо до '''23:59 04 ноября 2014 года''' прислать письмо по электронной почте на адрес [mailto:competition.avito.2014@forecsys.ru competition.avito.2014@forecsys.ru] с темой «Регистрация», содержащее никнейм участника – имя/псевдоним, которое будет отображаться в предварительном рейтинге участников, формируемом в течение первого этапа. Адрес электронной почты участника будет использоваться для его идентификации.
+
Для регистрации в конкурсе потенциальному участнику необходимо до '''23:59 4 ноября 2014 года''' прислать письмо по электронной почте на адрес [mailto:competition.avito.2014@forecsys.ru competition.avito.2014@forecsys.ru] с темой «Регистрация», содержащее никнейм участника – имя/псевдоним, которое будет отображаться в предварительном рейтинге участников, формируемом в течение первого этапа. Адрес электронной почты участника будет использоваться для его идентификации.
Заявкой на регистрацию в конкурсе Вы подтверждаете, что ознакомились и согласны с [[Media:Avito_rules.pdf‎|Правилами конкурса]].
Заявкой на регистрацию в конкурсе Вы подтверждаете, что ознакомились и согласны с [[Media:Avito_rules.pdf‎|Правилами конкурса]].
==Этапы и сроки проведения конкурса==
==Этапы и сроки проведения конкурса==
-
Конкурс проходит в два этапа.
+
Конкурс проводится в два этапа.
===Этап первый: настройка алгоритмов распознавания===
===Этап первый: настройка алгоритмов распознавания===
-
Первый этап проводится с момента объявления конкурса '''1 октября 2014 года''' и до '''23:59 13 ноября 2014 года''' по московскому времени.
+
Первый этап проводится с момента объявления конкурса '''1 октября 2014 года''' и до '''23:59 13 ноября 2014 года'''.
-
В течение этого времени участники настраивают свои алгоритмы на обучающей части данных конкурсной задачи (выборка A).
+
На данном этапе участники, используя обучающую выборку А, настраивают свои алгоритмы классификации изображений на два класса: содержащие и не содержащие контактную информацию. Алгоритм оценивает вероятность принадлежности изображения к классу изображений, содержащих контактную информацию.
-
Для проверки качества алгоритмов и составления предварительного рейтинга результатов участники отправляют файл с результатами на выборке B на почту [mailto:competition.avito.2014@forecsys.ru competition.avito.2014@forecsys.ru], указав в теме письма «Результаты B: Никнейм участника» (письмо должно быть отправлено с того же электронного адреса, что и при регистрации участника).
+
Для проверки качества алгоритмов и составления предварительного рейтинга результатов участники отправляют файл с результатами на выборке B по электронной почте на адрес [mailto:competition.avito.2014@forecsys.ru competition.avito.2014@forecsys.ru], указав в теме письма «Результаты B: Никнейм участника» (письмо должно быть отправлено с того же электронного адреса, что и при регистрации участника).
Результаты представляются в csv-формате (образец файла [[Media:20140930 Ivanov Results B version1.zip|''здесь'']]). Рекомендуемый формат имени файла “YYYYMMDD_Никнейм_участника_Results_B_version1.csv”. Файл с результатами содержит два столбца: в первом столбце указаны идентификаторы изображений (имена файлов), а во втором – вещественные оценки вероятностей нахождения на изображениях контактной информации. Значения оценок вероятностей должны принадлежать отрезку [0,1]. Пропуски и строковые значения не допускаются.
Результаты представляются в csv-формате (образец файла [[Media:20140930 Ivanov Results B version1.zip|''здесь'']]). Рекомендуемый формат имени файла “YYYYMMDD_Никнейм_участника_Results_B_version1.csv”. Файл с результатами содержит два столбца: в первом столбце указаны идентификаторы изображений (имена файлов), а во втором – вещественные оценки вероятностей нахождения на изображениях контактной информации. Значения оценок вероятностей должны принадлежать отрезку [0,1]. Пропуски и строковые значения не допускаются.
Строка 78: Строка 88:
Два раза в неделю – '''понедельник и четверг до 23:59''' по московскому времени – осуществляется прием писем с оценками вероятностей для выборки B для составления очередного предварительного рейтинга участников. В течение следующего рабочего дня будет обновлен предварительный [[Конкурс_Avito.ru-2014:_распознавание_контактной_информации_на_изображениях/Рейтинг_участников|рейтинг результатов]] участников. Для расчета рейтинга используются результаты участника, полученные в '''последнем письме'''.
Два раза в неделю – '''понедельник и четверг до 23:59''' по московскому времени – осуществляется прием писем с оценками вероятностей для выборки B для составления очередного предварительного рейтинга участников. В течение следующего рабочего дня будет обновлен предварительный [[Конкурс_Avito.ru-2014:_распознавание_контактной_информации_на_изображениях/Рейтинг_участников|рейтинг результатов]] участников. Для расчета рейтинга используются результаты участника, полученные в '''последнем письме'''.
-
До '''23:59 13 ноября''' по московскому времени участники должны прислать ZIP-архив c [[Конкурс_Avito.ru-2014:_распознавание_контактной_информации_на_изображениях#.D0.A2.D1.80.D0.B5.D0.B1.D0.BE.D0.B2.D0.B0.D0.BD.D0.B8.D1.8F_.D0.BA_.D0.BF.D1.80.D0.BE.D0.B3.D1.80.D0.B0.D0.BC.D0.BC.D0.BD.D0.BE.D0.BC.D1.83_.D0.BE.D0.B1.D0.B5.D1.81.D0.BF.D0.B5.D1.87.D0.B5.D0.BD.D0.B8.D1.8E|файлами программы алгоритма]]. Программа алгоритма будет использована для проверки воспроизводимости результатов участника, претендующего на победу в конкурсе, на контрольной выборке C. Участники, не приславшие вовремя свои алгоритмы, не смогут претендовать на победу в конкурсе.
+
{{notice|
 +
'''Update 11.11.2014'''<br/>
 +
[[Конкурс_Avito.ru-2014:_распознавание_контактной_информации_на_изображениях/Рейтинг_участников|Рейтинг участников]] зафиксирован и больше не обновляется ввиду того, что уже выложены метки классов объектов тестовой выборки В.
 +
}}
 +
 
 +
7 ноября 2014 года участникам предоставляется для скачивания ответы для выборки B, которые участники могут использовать для дальнейшей настройки алгоритмов.
 +
 
 +
До '''23:59 13 ноября''' участники должны прислать ZIP-архив c [[Конкурс_Avito.ru-2014:_распознавание_контактной_информации_на_изображениях#.D0.A2.D1.80.D0.B5.D0.B1.D0.BE.D0.B2.D0.B0.D0.BD.D0.B8.D1.8F_.D0.BA_.D0.BF.D1.80.D0.BE.D0.B3.D1.80.D0.B0.D0.BC.D0.BC.D0.BD.D0.BE.D0.BC.D1.83_.D0.BE.D0.B1.D0.B5.D1.81.D0.BF.D0.B5.D1.87.D0.B5.D0.BD.D0.B8.D1.8E|файлами программы алгоритма]]. Программа алгоритма будет использована для проверки воспроизводимости результатов участника, претендующего на победу в конкурсе, на контрольной выборке C. Участники, не приславшие вовремя свои алгоритмы, не смогут претендовать на победу в конкурсе.
===Этап второй: применение алгоритмов на контрольной выборке C===
===Этап второй: применение алгоритмов на контрольной выборке C===
Второй этап проводится с '''14 ноября''' по '''23:59 18 ноября 2014 года'''
Второй этап проводится с '''14 ноября''' по '''23:59 18 ноября 2014 года'''
-
'''14 ноября 2014 года''' участникам предоставляется для скачивания контрольная выборка C, а так же ответы для выборки B, которые участники могут использовать для дальнейшей настройки алгоритмов.
+
'''14 ноября 2014 года''' участникам предоставляется для скачивания контрольная выборка C.
-
'''С 15 по 23:59 18 ноября 2014 года''' по московскому времени участники высылают результаты работы алгоритмов на выборке C (образец файла [[Media:20140930 Ivanov Results B version1.zip‎|''здесь'']]) на почтовый адрес [mailto:competition.avito.2014@forecsys.ru competition.avito.2014@forecsys.ru], указав в теме письма «Результаты C: Никнейм участника». Рекомендуемый формат имени файла “YYYYMMDD_Никнейм_участника_Results_C_version1.csv”.
+
'''С 15 ноября по 23:59 18 ноября 2014 года''' участники высылают результаты работы алгоритмов на выборке C (образец файла [[Media:20141115 Ivanov Results C version1.zip‎‎|''здесь'']]) по электронной почте на адрес [mailto:competition.avito.2014@forecsys.ru competition.avito.2014@forecsys.ru], указав в теме письма «Результаты C: Никнейм участника». Рекомендуемый формат имени файла “YYYYMMDD_Никнейм_участника_Results_C_version1.csv”.
Последние присланные участником результаты до '''23:59 18 ноября 2014 года''' на контрольной выборке C будут использованы при определении победителей конкурса.
Последние присланные участником результаты до '''23:59 18 ноября 2014 года''' на контрольной выборке C будут использованы при определении победителей конкурса.
Строка 92: Строка 109:
'''Победителем конкурса''' (первое место) станет участник, алгоритм которого продемонстрировал наилучший результат на контрольной выборке C.
'''Победителем конкурса''' (первое место) станет участник, алгоритм которого продемонстрировал наилучший результат на контрольной выборке C.
-
'''Второе место займет''' участник, показавший наилучший результат на контрольной выборке C среди тех участников, которые использовали только [[Конкурс_по_распознаванию_контактной_информации_на_изображениях_%28Конкурс_Avito.ru_2014%29#.D0.A2.D1.80.D0.B5.D0.B1.D0.BE.D0.B2.D0.B0.D0.BD.D0.B8.D1.8F_.D0.BA_.D0.BF.D1.80.D0.BE.D0.B3.D1.80.D0.B0.D0.BC.D0.BC.D0.BD.D0.BE.D0.BC.D1.83_.D0.BE.D0.B1.D0.B5.D1.81.D0.BF.D0.B5.D1.87.D0.B5.D0.BD.D0.B8.D1.8E|некоммерческое ПО]]. В случае, если первое место занял участник, пользующийся только некоммерческим ПО, второе место достанется следующему по оценке качества алгоритма по результатам на выборке C среди тех, кто использовал только некоммерческое ПО.
+
'''Второе место займет''' участник, алгоритм которого продемонстрировал наилучший результат на контрольной выборке C среди тех участников, которые использовали только [[Конкурс_по_распознаванию_контактной_информации_на_изображениях_%28Конкурс_Avito.ru_2014%29#.D0.A2.D1.80.D0.B5.D0.B1.D0.BE.D0.B2.D0.B0.D0.BD.D0.B8.D1.8F_.D0.BA_.D0.BF.D1.80.D0.BE.D0.B3.D1.80.D0.B0.D0.BC.D0.BC.D0.BD.D0.BE.D0.BC.D1.83_.D0.BE.D0.B1.D0.B5.D1.81.D0.BF.D0.B5.D1.87.D0.B5.D0.BD.D0.B8.D1.8E|некоммерческое ПО]]. В случае, если первое место занял участник, использовавший только некоммерческое ПО, второе место достанется следующему участнику по оценке качества алгоритма по результатам на выборке C среди тех, кто использовал только некоммерческое ПО.
 +
 
 +
Информация о победителях будет опубликована на странице конкурса '''до 10 декабря 2014 г.'''
-
'''Воспроизводимость результата работы алгоритма''' участника с использованием присланной ранее программы алгоритма является обязательным условием получения призового места. Предоставление организаторам необходимого ПО и помощь в воспроизведении результатов является обязанностью участника. Кроме того, участник, претендующий на победу в конкурсе, должен подготовить [[Конкурс_Avito.ru-2014:_распознавание_контактной_информации_на_изображениях#.D0.A2.D1.80.D0.B5.D0.B1.D0.BE.D0.B2.D0.B0.D0.BD.D0.B8.D1.8F_.D0.BA_.D0.BE.D0.BF.D0.B8.D1.81.D0.B0.D0.BD.D0.B8.D1.8E_.D0.B0.D0.BB.D0.B3.D0.BE.D1.80.D0.B8.D1.82.D0.BC.D0.B0_.D1.80.D0.B0.D1.81.D0.BF.D0.BE.D0.B7.D0.BD.D0.B0.D0.B2.D0.B0.D0.BD.D0.B8.D1.8F|описание алгоритма]].
+
'''Воспроизводимость результата работы алгоритма''' участника с использованием присланной ранее программы алгоритма является обязательным условием признания этого участника победителем конкурса. Предоставление организаторам необходимого ПО и помощь в воспроизведении результатов работы алгоритма является обязанностью участника. Кроме того, участник должен подготовить [[Конкурс_Avito.ru-2014:_распознавание_контактной_информации_на_изображениях#.D0.A2.D1.80.D0.B5.D0.B1.D0.BE.D0.B2.D0.B0.D0.BD.D0.B8.D1.8F_.D0.BA_.D0.BE.D0.BF.D0.B8.D1.81.D0.B0.D0.BD.D0.B8.D1.8E_.D0.B0.D0.BB.D0.B3.D0.BE.D1.80.D0.B8.D1.82.D0.BC.D0.B0_.D1.80.D0.B0.D1.81.D0.BF.D0.BE.D0.B7.D0.BD.D0.B0.D0.B2.D0.B0.D0.BD.D0.B8.D1.8F|описание алгоритма]].
Денежная премия: <br />
Денежная премия: <br />
Строка 106: Строка 125:
Приветствуется, в первую очередь, использование программного обеспечения (ПО), которое не требует лицензии для коммерческого использования. Использование коммерческого ПО также допускается.
Приветствуется, в первую очередь, использование программного обеспечения (ПО), которое не требует лицензии для коммерческого использования. Использование коммерческого ПО также допускается.
-
К ПО предъявляется одно общее требование – возможность воспроизведения организаторами результатов участника без приобретения каких-либо лицензий, например, используя тестовые версии соответствующего ПО, которые находятся в открытом доступе на сайте производителя.
+
К ПО предъявляется одно общее требование – возможность воспроизведения организаторами результатов работы алгоритмов участников без приобретения каких-либо лицензий, например, используя тестовые версии соответствующего ПО, которые находятся в открытом доступе на сайте производителя ПО.
-
Предоставление организаторам необходимого ПО и помощь в воспроизведении результатов является обязанностью участника.
+
Предоставление организаторам необходимого ПО и помощь в воспроизведении результатов является обязанностью участника.
==Требования к описанию алгоритма распознавания==
==Требования к описанию алгоритма распознавания==
-
Требуется предоставить Word или PDF документ на русском языке с описанием алгоритма по следующему шаблону:
+
Требуется предоставить файл формата .doc, docx или .pdf с описанием алгоритма на русском языке по следующему шаблону:
-
# '''Идентификация''' <br />Никнейм и адрес электронной почты.
+
# '''Идентификация''' <br />Никнейм и адрес электронной почты участника.
# '''Аннотация''' <br />4-6 предложений, объясняющих общий подход к построению алгоритма, включающих, например, принципы генерации или отбора признаков и метод обучения.<br />
# '''Аннотация''' <br />4-6 предложений, объясняющих общий подход к построению алгоритма, включающих, например, принципы генерации или отбора признаков и метод обучения.<br />
# '''Генерация и отбор признаков''' <br />Описание метода генерации и/или отбора признаков изображений. Список и общее описание выбранных признаков. <br />
# '''Генерация и отбор признаков''' <br />Описание метода генерации и/или отбора признаков изображений. Список и общее описание выбранных признаков. <br />
Строка 129: Строка 148:
{{Служебная:Prefixindex/Конкурс Avito.ru-2014: распознавание контактной информации на изображениях/}}
{{Служебная:Prefixindex/Конкурс Avito.ru-2014: распознавание контактной информации на изображениях/}}
-
[[Категория:Конкурсы]]
+
[[Категория:Конкурс Avito-2014]]

Текущая версия

Содержание

Конкурс по распознаванию контактной информации на изображениях Avito.ru — конкурс по решению прикладной задачи из области анализа изображений, проводимый при информационной поддержке 10-й Международной конференции «Интеллектуализация обработки информации-2014» (ИОИ-2014), Греция, о. Крит, 4-11 октября 2014 года.

Организаторы конкурса – компания Avito.ru и ее партнер – компания Форексис.

Вопросы организаторам конкурса можно задавать в обсуждении страницы конкурса для зарегистрированных на портале MachineLearning.ru пользователей, либо по электронной почте на адрес competition.avito.2014@forecsys.ru с указанием в теме письма «Вопрос».

С информацией об организаторе конкурса, правилах его проведения, количестве наград, сроках, месте и порядке их получения можно ознакомиться здесь.

Итоги конкурса.

Новый конкурс

В настоящий момент проходит конкурс Avito-2016 по распознаванию категории объявления


Ключевые даты конкурса

1 октября 2014 года – Старт конкурса
до 23:59 4 ноябряРегистрация участников
до 23:59 13 ноябряОбучение и сбор алгоритмов участников
14 ноябряПредоставление контрольной выборки C и ответов для выборки B
до 23:59 18 ноябряСбор результатов алгоритмов на контрольной выборке C
19 ноября – 10 декабряОпределение победителей и проверка на воспроизводимость результатов, публикация презентаций победителей на странице конкурса

Avito.ru

Avito.ru является самым большим в России сайтом объявлений. Миллионы людей ежедневно заходят на портал, чтобы продать или купить практически всё, что пожелают: от цифровой техники и одежды до автомобилей и недвижимости. Объявления размещают частные лица, предприниматели и компании, поэтому на Avito.ru можно купить как бывшие в употреблении вещи, так и абсолютно новые товары.

Миссия Avito.ru — соединить продавцов и покупателей по всей России, изменив их повседневную жизнь к лучшему.

На Avito.ru более 24 миллионов активных объявлений и каждый день огромное количество объявлений создается или изменяется. Эффективность Avito.ru в значительной степени зависит от качества заполнения содержания объявлений, поскольку качественные объявления позволяют покупателям оперативно находить подходящие предложения, а продавцам - продавать свои товары за считанные часы.

Описание задачи

По правилам Avito.ru в объявлении контактная информация продавца (например, телефон, e-mail, ссылка на сайт) должна быть указана в соответствующих текстовых полях. Это позволяет организовать удобный поиск для покупателей, эффективно находить дубликаты объявлений, организовывать черные списки недобросовестных продавцов и выявлять другие нарушения. Типичным нарушением является заполнение текстовых полей объявления недействительной контактной информацией, в то же время, на изображении предоставляется актуальная информация.

Цель конкурса – создание эффективного алгоритма распознавания изображений, содержащих контактную информацию.

Ниже приведены два примера изображений с контактной информацией.


Описание данных

Исходная выборка, выборка A, содержит 41 122 изображения, классифицированных на два класса:

  • 1 – в изображении присутствует контактная информация (12031),
  • 0 – в изображении отсутствует контактная информация (29091).

Выборка A используется для настройки алгоритмов участниками.

Еще 10 000 изображений, выборка B, являются тестовыми – ответы по ним известны только организаторам. Тестовые данные будут использоваться для составления промежуточного рейтинга участников, который обновляется два раза в неделю .

Третья выборка, выборка C, – контрольная, предоставляется участникам на втором этапе конкурса и содержит 10 000 изображений. Контрольная выборка будет использоваться для определения победителей конкурса. Подробнее об этапах конкурса .

Изображения имеют формат jpg, ответы по обучающей выборке представлены в csv-файле в формате Id, label, где Id – имя файла изображения, а label – метка класса, 0 или 1.


Update 08.10.2014

Использование структуры id изображений в алгоритме не допускается, id изображений в контрольной выборке C будут случайными.


Данные можно скачать по ссылкам:
Выборка A – папка содержит обучающие изображения в формате jpg.
Выборка B – папка содержит тестовые изображения в формате jpg.
Выборка C – папка содержит контрольные изображения в формате jpg.
Метки классов объектов обучающей выборки – csv-файл содержит метки классов для выборки A.
Метки классов объектов тестовой выборки – csv-файл содержит метки классов для выборки В.

Функционал качества алгоритма распознавания

Качество работы алгоритмов распознавания оценивается показателем AUC – площадь под ROC-кривой.

Реализация функционала качества AUC в среде Matlab:

[X,Y,T,AUC] = perfcurve(labels,scores,posclass);

Регистрация участников

Для регистрации в конкурсе потенциальному участнику необходимо до 23:59 4 ноября 2014 года прислать письмо по электронной почте на адрес competition.avito.2014@forecsys.ru с темой «Регистрация», содержащее никнейм участника – имя/псевдоним, которое будет отображаться в предварительном рейтинге участников, формируемом в течение первого этапа. Адрес электронной почты участника будет использоваться для его идентификации.

Заявкой на регистрацию в конкурсе Вы подтверждаете, что ознакомились и согласны с Правилами конкурса.

Этапы и сроки проведения конкурса

Конкурс проводится в два этапа.

Этап первый: настройка алгоритмов распознавания

Первый этап проводится с момента объявления конкурса 1 октября 2014 года и до 23:59 13 ноября 2014 года.

На данном этапе участники, используя обучающую выборку А, настраивают свои алгоритмы классификации изображений на два класса: содержащие и не содержащие контактную информацию. Алгоритм оценивает вероятность принадлежности изображения к классу изображений, содержащих контактную информацию.

Для проверки качества алгоритмов и составления предварительного рейтинга результатов участники отправляют файл с результатами на выборке B по электронной почте на адрес competition.avito.2014@forecsys.ru, указав в теме письма «Результаты B: Никнейм участника» (письмо должно быть отправлено с того же электронного адреса, что и при регистрации участника).

Результаты представляются в csv-формате (образец файла здесь). Рекомендуемый формат имени файла “YYYYMMDD_Никнейм_участника_Results_B_version1.csv”. Файл с результатами содержит два столбца: в первом столбце указаны идентификаторы изображений (имена файлов), а во втором – вещественные оценки вероятностей нахождения на изображениях контактной информации. Значения оценок вероятностей должны принадлежать отрезку [0,1]. Пропуски и строковые значения не допускаются.

Два раза в неделю – понедельник и четверг до 23:59 по московскому времени – осуществляется прием писем с оценками вероятностей для выборки B для составления очередного предварительного рейтинга участников. В течение следующего рабочего дня будет обновлен предварительный рейтинг результатов участников. Для расчета рейтинга используются результаты участника, полученные в последнем письме.


Update 11.11.2014

Рейтинг участников зафиксирован и больше не обновляется ввиду того, что уже выложены метки классов объектов тестовой выборки В.


7 ноября 2014 года участникам предоставляется для скачивания ответы для выборки B, которые участники могут использовать для дальнейшей настройки алгоритмов.

До 23:59 13 ноября участники должны прислать ZIP-архив c файлами программы алгоритма. Программа алгоритма будет использована для проверки воспроизводимости результатов участника, претендующего на победу в конкурсе, на контрольной выборке C. Участники, не приславшие вовремя свои алгоритмы, не смогут претендовать на победу в конкурсе.

Этап второй: применение алгоритмов на контрольной выборке C

Второй этап проводится с 14 ноября по 23:59 18 ноября 2014 года

14 ноября 2014 года участникам предоставляется для скачивания контрольная выборка C.

С 15 ноября по 23:59 18 ноября 2014 года участники высылают результаты работы алгоритмов на выборке C (образец файла здесь) по электронной почте на адрес competition.avito.2014@forecsys.ru, указав в теме письма «Результаты C: Никнейм участника». Рекомендуемый формат имени файла “YYYYMMDD_Никнейм_участника_Results_C_version1.csv”.

Последние присланные участником результаты до 23:59 18 ноября 2014 года на контрольной выборке C будут использованы при определении победителей конкурса.

Процедура определения победителей и призовой фонд

Победителем конкурса (первое место) станет участник, алгоритм которого продемонстрировал наилучший результат на контрольной выборке C.

Второе место займет участник, алгоритм которого продемонстрировал наилучший результат на контрольной выборке C среди тех участников, которые использовали только некоммерческое ПО. В случае, если первое место занял участник, использовавший только некоммерческое ПО, второе место достанется следующему участнику по оценке качества алгоритма по результатам на выборке C среди тех, кто использовал только некоммерческое ПО.

Информация о победителях будет опубликована на странице конкурса до 10 декабря 2014 г.

Воспроизводимость результата работы алгоритма участника с использованием присланной ранее программы алгоритма является обязательным условием признания этого участника победителем конкурса. Предоставление организаторам необходимого ПО и помощь в воспроизведении результатов работы алгоритма является обязанностью участника. Кроме того, участник должен подготовить описание алгоритма.

Денежная премия:

1-е место 100 000 рублей (без учета налогов).
2-е место 50 000 рублей (без учета налогов).

Публикация презентаций победителей

Победителям конкурса предоставляется возможность опубликовать презентации своих алгоритмов на странице конкурса. Презентация должна кратко и наглядно иллюстрировать подход участника к решению задачи, применяемые методы и полученные результаты. Формат и содержание презентации согласуются с организаторами.

Требования к программному обеспечению

Приветствуется, в первую очередь, использование программного обеспечения (ПО), которое не требует лицензии для коммерческого использования. Использование коммерческого ПО также допускается.

К ПО предъявляется одно общее требование – возможность воспроизведения организаторами результатов работы алгоритмов участников без приобретения каких-либо лицензий, например, используя тестовые версии соответствующего ПО, которые находятся в открытом доступе на сайте производителя ПО.

Предоставление организаторам необходимого ПО и помощь в воспроизведении результатов является обязанностью участника.

Требования к описанию алгоритма распознавания

Требуется предоставить файл формата .doc, docx или .pdf с описанием алгоритма на русском языке по следующему шаблону:

  1. Идентификация
    Никнейм и адрес электронной почты участника.
  2. Аннотация
    4-6 предложений, объясняющих общий подход к построению алгоритма, включающих, например, принципы генерации или отбора признаков и метод обучения.
  3. Генерация и отбор признаков
    Описание метода генерации и/или отбора признаков изображений. Список и общее описание выбранных признаков.
  4. Процесс обучения
    Описание деталей метода обучения, использованного для построения алгоритма. Если комбинировались или объединялись разные методы, опишите каким образом.
  5. Описание программы алгоритма
    Для каждой функции:
    • входные переменные
    • выходные переменные
    • что функция делает
  6. Зависимости
    Список зависимостей, библиотек, функций, пакетов или код других сторонних компаний, использованных для создания алгоритма.
  7. Инструкция по воспроизведению (аналог README файла)
    Пошаговая инструкция для создания проекта из приведенного кода.
  8. Дополнительные комментарии и наблюдения
    Любые дополнительные комментарии или наблюдения по поводу данных, алгоритма или процесса улучшения алгоритма.
  9. Графики
    Графики или картинки, которые были сделаны из данных или в процессе обучения и которые показались полезными или интересными.
  10. Ссылки
    Необходимые ссылки или другие внешние источники информации.

Подстраницы

Конкурс Avito.ru-2014: распознавание контактной информации на изображениях/Рейтинг участников
Личные инструменты