Участник:Pavel Levdik/Песочница

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Описание данных)
(Описание данных)
Строка 88: Строка 88:
Объектом для классификации является объявление. На разных этапах объекты представлены разным набором признаков.
Объектом для классификации является объявление. На разных этапах объекты представлены разным набором признаков.
-
На первом этапе конкурса объявления представлены изображениями. <br />
+
На первом этапе объявления представлены изображениями. <br />
На втором этапе объявления представлены изображениями и заголовками. <br />
На втором этапе объявления представлены изображениями и заголовками. <br />
На третьем этапе объявления представлены изображениями, заголовками и описаниями. <br />
На третьем этапе объявления представлены изображениями, заголовками и описаниями. <br />

Версия 13:44, 31 мая 2016

Содержание

Конкурс Avito-2016: Распознавание категории объявления

Конкурс по распознаванию категории объявления Avito-2016 — это конкурс по решению прикладной задачи из области анализа изображений и текстов, проводимый при информационной поддержке 11-й Международной конференции «Интеллектуализация обработки информации».

Организаторы конкурса – компания «КЕХ еКоммерц» (сайт объявлений Avito) и ее партнер – компания Форексис.

Вопросы организаторам конкурса можно задавать по электронной почте на адрес competitions@forecsys.ru с указанием в теме письма «Avito-2016: Вопрос».

С информацией об организаторе конкурса, правилах его проведения, количестве наград, сроках, месте и порядке их получения можно ознакомиться здесь.

Предварительный рейтинг участников.

С предыдущими конкурсами Avito-2014, Avito-2015 и Avito-2016 можно ознакомиться на соответствующих страницах.

Ключевые даты конкурса

13 июня 2016 года – Старт конкурса

1 этап (изображения):

13 июня 2016 года – Старт 1 этапа
до 23:59 10 июня 2016 года – Предоставление участниками дополнительных внешних данных, используемых для обучения
до 23:59 24 июня 2016 года – Предоставление результатов участниками и регулярный расчет предварительного рейтинга
до 23:59 31 июня 2016 года – Определение победителей 1 этапа

2 этап (изображения + заголовки):

01 августа 2016 года – Старт 2 этапа
до 23:59 14 августа 2016 года – Предоставление участниками дополнительных внешних данных, используемых для обучения
до 23:59 21 августа 2016 года – Предоставление результатов участниками и регулярный расчет предварительного рейтинга
до 23:59 28 августа 2016 года – Определение победителей 2 этапа

3 этап (изображения + заголовки + описания):

29 августа 2016 года – Старт 3 этапа
до 23:59 18 сентября 2016 года – Предоставление участниками дополнительных внешних данных, используемых для обучения
до 23:59 28 сентября 2016 года – Предоставление результатов участниками и регулярный расчет предварительного рейтинга
до 23:59 02 октября 2016 года – Определение победителей 3 этапа

до 23:59 14 октября 2016 года – Публикация презентаций победителей каждого из этапов на странице конкурса

Avito

Avito является самым большим в России сайтом объявлений. Миллионы людей ежедневно заходят на портал, чтобы продать или купить практически всё, что пожелают: от цифровой техники и одежды до автомобилей и недвижимости. Объявления размещают частные лица, предприниматели и компании, поэтому на Avito.ru можно купить как бывшие в употреблении вещи, так и абсолютно новые товары.На Avito более 24 миллионов активных объявлений и каждый день огромное количество объявлений создается или изменяется.

Миссия Avito.ru — соединить продавцов и покупателей по всей России, изменив их повседневную жизнь к лучшему.

Описание задачи

По правилам Avito при создании объявления пользователю требуется указать его категорию. При этом любой человек с весьма хорошей точностью сможет понять, о какой категории идет речь, если увидит фотографию продаваемого товара, заголовок объявление и текстовое описание. Задача конкурса состоит в том, чтобы создать алгоритм, способный делать это автоматически. Это упростит жизнь миллионам пользователей, а также снизит число ошибочно заполненных категорий объявлений.

Весной 2016 года прошел конкурс по распознаванию марки и модели автомашин на изображениях Avito-2016. В конкурсе требовалось построить алгоритм, который бы классифицировал марку и модель автомобиля по его фотографии с хорошей точностью (была достигнута точность боле 96%). Другими словами, для объявления о продаже авто требовалось определить его конкретную подкатегорию. В новом конкурсе перед участниками стоит в некотором смысле аналогичная задача: для объявления произвольной тематики определить его категорию.

Цель конкурса – создание эффективного алгоритма определения категории объявления.

Этот конкурс представляет из себя длительный "марафон": это три последовательных этапах с одной и той же задачей и постепенно расширяющимся набором признаков. Основная задача - определить категорию объявления.

Этот конкурс представляет из себя длительный "марафон": на трех последовательных этапах участникам предстоит решать задачу определения категории объявления с постепенно расширяющимся набором признаков.

На первом этапе для каждого объявления предоставляется одно или несколько изображений.
На втором этапе в дополнение к имеющимся данным выгружаются заголовки объявлений.
На третьем этапе ко всему этому добавляются текстовые описания товаров.

Ниже приведены примеры изображений, заголовков и описаний продаваемых товаров.

Заголовок iPhone 5 16GB white Платье на выпускной CBR1000RR Павильон по продаже шаурмы в проходном месте
Описание Телефон в идеальном состоянии,пользовалась девушка.

Обмен не предлагать.

РБ/у один раз.

Торг.

Без падений, в родном пластике, 21000пробег, пригнан в 2014, первый хозяин в России. Новая резина, все в идеале! Продается бизнес по продаже продуктов быстрого питания в проходном месте! Территориально м.авиамоторная...
Категория Бытовая электроника/Телефоны Личные вещи/Одежда, обувь, аксессуары Транспорт/Мотоциклы и мототехника Для бизнеса/Готовый бизнес


Описание данных

Объектом для классификации является объявление. На разных этапах объекты представлены разным набором признаков.

На первом этапе объявления представлены изображениями.
На втором этапе объявления представлены изображениями и заголовками.
На третьем этапе объявления представлены изображениями, заголовками и описаниями.

Целевой характеристикой для объектов является категория. Категория представляет собой 4х-уровневую иерархическую классификацию.

Обучающая выборка, выборка A, состоит из 600 000 объявлений, классифицированных на 300 категорий. Эта выборка используется участниками для настройки своих алгоритмов.

Контрольная выборка состоит из 300 000 объявлений. Участникам предстоит классифицировать эти объявления по категориям. Эта выборка будет использоваться для составления промежуточного и итогового рейтингов участников. Промежуточный рейтинг будет рассчитываться по 1/3 объявлений из контрольной выборки (выборка B). Итоговый рейтинг будет рассчитываться на каждом этапе по 2/3 объявлений контрольной выборки (выборка C). Разбиение контрольной выборки на выборки B и C участникам не раскрывается.

Изображения имеют формат jpg.

Ответы по обучающей выборке представлены в csv-файле в формате id, label, где id – имя файла изображения, а label – метка категории 4го уровня, которая автоматически определяет все родительские категории.

Соответствие идентификаторов категорий их названиям указано в файле-словаре.

Данные можно получить после регистрации в конкурсе.

Внешние модели и данные

Для обучения моделей разрешается использовать внешние модели и коллекции данных. При этом внешние ресурсы должны быть разрешены к коммерческому использованию. В случае использования внешних моделей или данных участник обязан прислать информацию об этом competitions@forecsys.ru соответствующей даты на каждом из этапов. Впоследствии организаторы сделают эту коллекцию доступной всем участникам.

Функционал качества алгоритма распознавания

Для каждого объекта точность предсказания категории рассчитывается как взвешенная сумма совпадений предсказания на каждом уровне:

q_i=0.3\cdot M_i^1+0.3\cdot M_i^2+0.2\cdot M_i^3+0.2\cdot M_i^4,

где M_i^m равно 1, если категория m-го уровня для объекта i угадана верно (match), иначе 0.

Таким образом, q_i=1 только в том случае, если категория угадана вплоть до последнего уровня.

Если M_i^m=0, то это автоматически означает, что M_i^{m+1}=0.

Общее качество рассчитывается как средняя точность распознавания всех объектов:

Q=\frac{1}{N}\sum_i{q_i}

Регистрация участников

Для регистрации в конкурсе потенциальному участнику необходимо прислать письмо по электронной почте на адрес competitions@forecsys.ru с темой «Avito-2016: Регистрация», содержащее никнейм участника – имя/псевдоним, которое будет отображаться в предварительном рейтинге участников, формируемом в течение первого этапа. Кроме того следует указать источник информации о конкурсе. Адрес электронной почты участника будет использоваться для его идентификации.

Заявкой на регистрацию в конкурсе Вы подтверждаете, что ознакомились и согласны с Правилами конкурса.

Порядок и сроки предоставления участниками результатов

Участники настраивают свои алгоритмы классификации объявлений, используя обучающую выборку A.

Для проверки качества алгоритма и составления рейтинга результатов каждый участник отправляет файл с результатами работы алгоритма на контрольной выборке по электронной почте на адрес competitions@forecsys.ru, указав в теме письма «Конкурс Avito-2016: Результаты Никнейм участника» (письмо должно быть отправлено с того же электронного адреса, что и при регистрации участника).

Результаты представляются в csv-формате (образец файла здесь). Рекомендуемый формат имени файла “YYYYMMDD_competition_avito_2016_2_Никнейм_участника_Results.csv”. Файл с результатами содержит два столбца с заголовками в первой строчке: в первом столбце (adv_id) указаны идентификаторы объявлений, а во втором (label) – идентификаторы класса, к которому алгоритм сопоставил эти объявления. Пропуски и строковые значения не допускаются.

Два раза в неделю – понедельник и четверг до 23:59 по московскому времени – заканчивается прием писем с результатами для составления очередного предварительного рейтинга участников. В течение следующего рабочего дня будет обновлен предварительный рейтинг результатов участников. Для расчета рейтинга используются результаты участника, полученные в последнем письме до указанного времени.

Предварительный рейтинг участников будет рассчитан по 1/3 объявлений контрольной выборки (выборка B). Итоговый рейтинг будет рассчитан по 2/3 контрольной выборки (Выборка C). Разбиение контрольной выборки на выборки B и C участникам не раскрывается.

Для расчета итогового рейтинга участников будет взят последний присланный до конца соответствующего этапа результат.

После окончания срока приема результатов и выявления лидеров участники, претендующие на победу предоставляют свои программы, а также описания алгоритмов. При помощи присланных программ и описаний происходит верификация результатов и определение победителей. После этого победителям выплачиваются денежные призы.

Процедура определения победителей и призовой фонд

На каждом этапе награждаются два первых места.

Денежная премия:

1-е место 100 000 рублей (без учета налогов).
2-е место 50 000 рублей (без учета налогов).

Jobs:

Возможность устроиться в Avito специалистом по анализу данных.
Если Вы заинтересованы в работе в Avito, сообщите об этом в регистрационном письме.

Победителем конкурса (первое место) станет участник, алгоритм которого продемонстрировал наилучший результат на контрольной C.
Второе место займет участник, алгоритм которого продемонстрировал второй по качеству результат на выборке С.

Информация о победителях будет опубликована на странице конкурса.

Воспроизводимость результата работы алгоритма участника с использованием предоставляемой участником программы является обязательным условием признания этого участника победителем конкурса. Предоставление организаторам необходимого ПО и помощь в воспроизведении результатов работы алгоритма является обязанностью участника. Кроме того, участник должен подготовить описание алгоритма.

Публикация презентаций победителей

Победителям конкурса предоставляется возможность опубликовать презентации своих алгоритмов на странице конкурса. Презентация должна кратко и наглядно иллюстрировать подход участника к решению задачи, применяемые методы и полученные результаты. Формат и содержание презентации согласуются с организаторами.

Требования к программному обеспечению

Призовое место участник может занять только в том случае, если он использовал программное обеспечение (ПО), которое не требует лицензии для коммерческого использования.

К ПО предъявляется требование – возможность воспроизведения организаторами результатов работы алгоритмов участников.

Запрещается использовать различные внешние данные, которые не были согласованы с организаторами.

Предоставление организаторам необходимого ПО и помощь в воспроизведении результатов является обязанностью участника.

Требования к описанию алгоритма распознавания

Требуется предоставить файл формата .doc, docx или .pdf с описанием алгоритма на русском языке по следующему шаблону:

  1. Идентификация
    Никнейм и адрес электронной почты участника.
  2. Аннотация
    4-6 предложений, объясняющих общий подход к построению алгоритма, включающих, например, принципы генерации или отбора признаков и метод обучения.
  3. Генерация и отбор признаков
    Описание метода генерации и/или отбора признаков изображений. Список и общее описание выбранных признаков.
  4. Процесс обучения
    Описание деталей метода обучения, использованного для построения алгоритма. Если комбинировались или объединялись разные методы, опишите каким образом.
  5. Описание программы алгоритма
    Для каждой функции:
    • входные переменные
    • выходные переменные
    • что функция делает
  6. Зависимости
    Список зависимостей, библиотек, функций, пакетов или код других сторонних компаний, использованных для создания алгоритма.
  7. Инструкция по воспроизведению (аналог README файла)
    Пошаговая инструкция для создания проекта из приведенного кода.
  8. Дополнительные комментарии и наблюдения
    Любые дополнительные комментарии или наблюдения по поводу данных, алгоритма или процесса улучшения алгоритма.
  9. Графики
    Графики или картинки, которые были сделаны из данных или в процессе обучения и которые показались полезными или интересными.
  10. Ссылки
    Необходимые ссылки или другие внешние источники информации.

Подстраницы

Конкурс Avito-2016: Распознавание категории объявления/Рейтинг участников