Участник:Pavel Levdik/Песочница

Материал из MachineLearning.

Перейти к: навигация, поиск

Содержание

Конкурс Avito-2016: Распознавание категории объявления

Конкурс по распознаванию категории объявления Avito-2016 — это конкурс по решению прикладной задачи из области анализа изображений и текстов, проводимый при информационной поддержке 11-й Международной конференции «Интеллектуализация обработки информации».

Организаторы конкурса – компания «КЕХ еКоммерц» (сайт объявлений Avito) и ее партнер – компания Форексис.

Вопросы организаторам конкурса можно задавать по электронной почте на адрес competitions@forecsys.ru с указанием в теме письма «Avito-2016: Вопрос».

С информацией об организаторе конкурса, правилах его проведения, количестве наград, сроках, месте и порядке их получения можно ознакомиться здесь.

Предварительный рейтинг участников.

С предыдущими конкурсами Avito-2014, Avito-2015 и Avito-2016 можно ознакомиться на соответствующих страницах.

Ключевые даты конкурса

13 июня 2016 года – Старт конкурса

1 этап (изображения):

13 июня 2016 года – Старт 1 этапа
до 23:59 24 июля 2016 года – Предоставление результатов участниками и регулярный расчет предварительного рейтинга
до 23:59 31 июля 2016 года – Определение победителей 1 этапа

2 этап (изображения + заголовки):

01 августа 2016 года – Старт 2 этапа
до 23:59 21 августа 2016 года – Предоставление результатов участниками и регулярный расчет предварительного рейтинга
до 23:59 28 августа 2016 года – Определение победителей 2 этапа

3 этап (изображения + заголовки + описания + цена):

29 августа 2016 года – Старт 3 этапа
до 23:59 28 сентября 2016 года – Предоставление результатов участниками и регулярный расчет предварительного рейтинга
до 23:59 02 октября 2016 года – Определение победителей 3 этапа

до 23:59 14 октября 2016 года – Публикация презентаций победителей каждого из этапов на странице конкурса

Avito

Avito является самым большим в России сайтом объявлений. Миллионы людей ежедневно заходят на портал, чтобы продать или купить практически всё, что пожелают: от цифровой техники и одежды до автомобилей и недвижимости. Объявления размещают частные лица, предприниматели и компании, поэтому на Avito.ru можно купить как бывшие в употреблении вещи, так и абсолютно новые товары.На Avito более 24 миллионов активных объявлений и каждый день огромное количество объявлений создается или изменяется.

Миссия Avito.ru — соединить продавцов и покупателей по всей России, изменив их повседневную жизнь к лучшему.

Описание задачи

По правилам Avito при создании объявления пользователь должен указать категорию объявления. При этом, любой человек с весьма хорошей точностью сможет определить категорию по фотографии товара, заголовку и текстовому описанию объявления.

Весной 2016 года мы провели конкурс, в котором требовалось построить алгоритм распознавания марки и модели автомобиля по его фотографии, или, другими словами, для объявления о продаже авто требовалось определить его категорию. В этом конкурсе мы предлагаем участникам решить обобщенный вариант задачи и для объявления произвольной тематики создать алгоритм, способный автоматически определять его категорию. Такой алгоритм сможет упростить жизнь миллионам пользователей, а также уменьшить количество ошибочно заполненных категорий объявлений.

Цель конкурса – создание эффективного алгоритма определения категории объявления.

Конкурс представляет из себя трех этапный марафон анализа данных: на каждом этапе участникам предстоит решать задачу определения категории объявления, при этом набор признаков объектов будет постепенно расширяться.

Ниже приведены примеры изображений, заголовков и описаний продаваемых товаров.

Изображение
Заголовок iPhone 5 16GB white Платье на выпускной MV Agusta F3 675 Павильон по продаже шаурмы в проходном месте
Описание Телефон в идеальном состоянии,пользовалась девушка.

Обмен не предлагать.

РБ/у один раз.

Торг.

Продаю MV Agusta F3 675

Год Выпуска 2013 Пробег 15200 км 1 владелец покупал у офиц.дилера в ГранМото(Москва)...

Продается бизнес по продаже продуктов быстрого питания в проходном месте! Территориально м.авиамоторная...
Категория Бытовая электроника/Телефоны Личные вещи/Одежда, обувь, аксессуары Транспорт/Мотоциклы и мототехника Для бизнеса/Готовый бизнес


Описание данных

Объектом является объявление. На разных этапах объекты представлены разным набором признаков.

На первом этапе объявления представлены изображениями.
На втором этапе объявления представлены изображениями и заголовками.
На третьем этапе объявления представлены изображениями, заголовками и описаниями.

Целевой характеристикой для объектов является категория. Категория представляет собой 4й уровень иерархического классификатора.

Обучающая выборка, выборка A, состоит из 600 000 объявлений, классифицированных на 300 категорий. Эта выборка используется участниками для настройки своих алгоритмов.

Контрольная выборка состоит из 300 000 объявлений. Участникам предстоит классифицировать эти объявления по категориям. Эта выборка будет использоваться для составления промежуточного и итогового рейтингов участников. Промежуточный рейтинг будет рассчитываться по 1/3 объявлений из контрольной выборки (выборка B). Итоговый рейтинг будет рассчитываться в конце каждого этапа по 2/3 объявлений контрольной выборки (выборка C). Разбиение контрольной выборки на выборки B и C участникам не раскрывается.

На всех этапах выборки состоят из одних и тех же объектов.

Изображения имеют формат jpg.

Ответы по обучающей выборке представлены в csv-файле в формате id, label, где id – имя файла изображения, а label – метка категории 4го уровня, которая автоматически определяет все родительские категории.

Соответствие идентификаторов категорий их названиям, а также родительским категориям указано в файле-словаре.

Данные предоставляются после регистрации в конкурсе.

Внешние данные

Для построения и обучения своих моделей участники вправе использовать любые внешние модели и коллекции, которые разрешены к коммерческому использованию. В конце каждого этапа кандидаты на призовые места обязаны предоставить описание алгоритма, в том числе информацию об используемых внешних данных.

Функционал качества алгоритма распознавания

Для каждого объекта i точность распознавания категории q_i рассчитывается как взвешенная сумма совпадений оценок категории с истинными ответами на каждом уровне:

q_i=0.3\cdot M_i^1+0.3\cdot M_i^2+0.2\cdot M_i^3+0.2\cdot M_i^4,

где M_i^l равно 1, если категория l-го уровня для объекта i угадана верно, иначе 0.


Таким образом, q_i=1 только в том случае, если категория угадана верно вплоть до последнего уровня.
Если M_i^l=0, то это автоматически означает, что M_i^{l+1}=0.


Общее качество алгоритма рассчитывается как средняя точность распознавания всех объектов:

Q=\frac{1}{N}\sum_i{q_i},

где N - количество объектов.

Регистрация участников

Для регистрации в конкурсе потенциальному участнику необходимо прислать письмо по электронной почте на адрес competitions@forecsys.ru с темой «Avito-2016: Регистрация». Регистрационное письмо должно содержать никнейм участника – имя/псевдоним, которое будет отображаться в предварительном рейтинге участников, формируемом в течение первого этапа и источник информации о конкурсе. Адрес электронной почты участника используется для его идентификации.

Регистрация возможна в течение всего срока конкурса на любом этапе.

Заявкой на регистрацию в конкурсе Вы подтверждаете, что ознакомились и согласны с Правилами конкурса.

Порядок и сроки предоставления участниками результатов

Участники настраивают свои алгоритмы классификации объявлений, используя обучающую выборку A.

Для проверки качества алгоритма и составления рейтинга результатов каждый участник отправляет файл с результатами работы алгоритма на контрольной выборке по электронной почте на адрес competitions@forecsys.ru, указав в теме письма «Конкурс Avito-2016: Результаты Никнейм участника» (письмо должно быть отправлено с того же электронного адреса, что и при регистрации участника).

Результаты представляются в csv-формате (образец файла будет доступен после старта конкурса). Рекомендуемый формат имени файла “YYYYMMDD_competition_avito_2016_Никнейм_участника_Results.csv”. Файл с результатами содержит два столбца с заголовками в первой строчке: в первом столбце (id) указаны идентификаторы объявлений, а во втором (label) – идентификаторы класса, к которому алгоритм сопоставил эти объявления. Пропуски и строковые значения не допускаются.

Два раза в неделю – понедельник и четверг до 23:59 по московскому времени – заканчивается прием писем с результатами для составления очередного предварительного рейтинга участников. В течение следующего рабочего дня будет обновлен предварительный рейтинг результатов участников. Для расчета рейтинга используются результаты участника, полученные в последнем письме до указанного времени.

Предварительный рейтинг участников будет рассчитан по 1/3 объявлений контрольной выборки (выборка B). Итоговый рейтинг будет рассчитан по 2/3 контрольной выборки (Выборка C). Разбиение контрольной выборки на выборки B и C участникам не раскрывается.

Для расчета итогового рейтинга участников будет взят последний присланный до конца соответствующего этапа результат.

После окончания срока приема результатов и выявления лидеров участники, претендующие на победу, предоставляют свои программы и описания алгоритмов.

Процедура определения победителей и призовой фонд

На каждом этапе награждаются два первых места.

Денежная премия:

1-е место 100 000 рублей (без учета налогов).
2-е место 50 000 рублей (без учета налогов).

Jobs:

Возможность устроиться в Avito специалистом по анализу данных.
Если Вы заинтересованы в работе в Avito, сообщите об этом в регистрационном письме.

Победителем этапа (первое место) станет участник, алгоритм которого продемонстрировал наилучший результат на контрольной выборке C.
Второе место займет участник, алгоритм которого продемонстрировал второй по качеству результат на выборке С.

Информация о победителях будет опубликована на странице конкурса.

Воспроизводимость результата работы алгоритма участника с использованием предоставляемой участником программы является обязательным условием признания этого участника победителем конкурса. Предоставление организаторам необходимого ПО и помощь в воспроизведении результатов работы алгоритма является обязанностью участника. Кроме того, участник должен подготовить описание алгоритма.

В начале следующего этапа всем участникам станет доступна информация об основных подходах призеров предыдущего этапа, а также о всех используемых ими внешних моделях и коллекциях.

Публикация презентаций победителей

Победителям конкурса предоставляется возможность опубликовать презентации своих алгоритмов на странице конкурса. Презентация должна кратко и наглядно иллюстрировать подход участника к решению задачи, применяемые методы и полученные результаты. Формат и содержание презентации согласуются с организаторами.

Требования к программному обеспечению

Призовое место участник может занять только в том случае, если он использовал программное обеспечение (ПО), которое не требует лицензии для коммерческого использования.

К ПО предъявляется требование – возможность воспроизведения организаторами результатов работы алгоритмов участников.

Предоставление организаторам необходимого ПО и помощь в воспроизведении результатов является обязанностью участника.

Требования к описанию алгоритма распознавания

Требуется предоставить файл формата .doc, docx или .pdf с описанием алгоритма на русском языке по следующему шаблону:

  1. Идентификация
    Никнейм и адрес электронной почты участника.
  2. Аннотация
    4-6 предложений, объясняющих общий подход к построению алгоритма, включающих, например, принципы генерации или отбора признаков и метод обучения.
  3. Внешние данные
    Список всех используемых внешних моделей и коллекций.
  4. Генерация и отбор признаков
    Описание метода генерации и/или отбора признаков изображений. Список и общее описание выбранных признаков.
  5. Процесс обучения
    Описание деталей метода обучения, использованного для построения алгоритма. Если комбинировались или объединялись разные методы, опишите каким образом.
  6. Описание программы алгоритма
    Для каждой функции:
    • входные переменные
    • выходные переменные
    • что функция делает
  7. Зависимости
    Список зависимостей, библиотек, функций, пакетов или код других сторонних компаний, использованных для создания алгоритма.
  8. Инструкция по воспроизведению (аналог README файла)
    Пошаговая инструкция для создания проекта из приведенного кода.
  9. Дополнительные комментарии и наблюдения
    Любые дополнительные комментарии или наблюдения по поводу данных, алгоритма или процесса улучшения алгоритма.
  10. Графики
    Графики или картинки, которые были сделаны из данных или в процессе обучения и которые показались полезными или интересными.
  11. Ссылки
    Необходимые ссылки или другие внешние источники информации.

Подстраницы

Конкурс Avito-2016: Распознавание категории объявления/Рейтинг участников
Личные инструменты