Участник:Pavel Levdik/Песочница

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Описание данных)
(Описание данных)
Строка 106: Строка 106:
==Описание данных==
==Описание данных==
Обучающая выборка, '''выборка A''', состоит из 600 000 объявлений, классифицированных на 300 категорий. Эта выборка используется участниками для настройки своих алгоритмов.
Обучающая выборка, '''выборка A''', состоит из 600 000 объявлений, классифицированных на 300 категорий. Эта выборка используется участниками для настройки своих алгоритмов.
-
 
-
Тестовая выборка, '''выборка B''', содержит 92 667 изображений, метки классов для них известны только организаторам. Эта выборка будет использоваться для составления промежуточного рейтинга участников, который обновляется два раза в неделю.
 
-
 
-
Контрольная выборка, '''выборка C''', содержит 217 092 изображений и предоставляется участникам на втором этапе конкурса. Контрольная выборка будет использоваться для определения победителей конкурса.
 
Контрольная выборка состоит из 300 000 объявлений. Участникам предстоит классифицировать эти объявления по категориям. Эта выборка будет использоваться для составления промежуточного и итогового рейтингов участников. Промежуточный рейтинг будет рассчитываться по 1/3 объявлений из контрольной выборки ('''выборка B'''). Итоговый рейтинг будет рассчитываться на каждом этапе по 2/3 объявлений контрольной выборки ('''выборка C'''). Разбиение контрольной выборки на выборки B и C участникам не раскрывается.
Контрольная выборка состоит из 300 000 объявлений. Участникам предстоит классифицировать эти объявления по категориям. Эта выборка будет использоваться для составления промежуточного и итогового рейтингов участников. Промежуточный рейтинг будет рассчитываться по 1/3 объявлений из контрольной выборки ('''выборка B'''). Итоговый рейтинг будет рассчитываться на каждом этапе по 2/3 объявлений контрольной выборки ('''выборка C'''). Разбиение контрольной выборки на выборки B и C участникам не раскрывается.

Версия 10:13, 27 мая 2016

Содержание

Конкурс Avito-2016-2: Распознавание категории объявления

Конкурс по распознаванию категории объявления Avito-2016 — это конкурс по решению прикладной задачи из области анализа изображений и текстов, проводимый при информационной поддержке 11-й Международной конференции «Интеллектуализация обработки информации».

Организаторы конкурса – компания «КЕХ еКоммерц» (сайт объявлений Avito) и ее партнер – компания Форексис.

Вопросы организаторам конкурса можно задавать по электронной почте на адрес competitions@forecsys.ru с указанием в теме письма «Avito-2016: Вопрос».

С информацией об организаторе конкурса, правилах его проведения, количестве наград, сроках, месте и порядке их получения можно ознакомиться здесь.

Предварительный рейтинг участников.

С предыдущими конкурсами Avito-2014, Avito-2015 и Avito-2016 можно ознакомиться на соответствующих страницах.

Ключевые даты конкурса

13 июня 2016 года – Старт конкурса

1 этап (изображения):

13 июня 2016 года – Старт 1 этапа
до 23:59 10 июня 2016 года – Предоставление участниками дополнительных внешних данных, используемых для обучения
до 23:59 24 июня 2016 года – Предоставление результатов участниками и регулярный расчет предварительного рейтинга
до 23:59 31 июня 2016 года – Определение победителей 1 этапа

2 этап (изображения + заголовки):

01 августа 2016 года – Старт 2 этапа
до 23:59 14 августа 2016 года – Предоставление участниками дополнительных внешних данных, используемых для обучения
до 23:59 21 августа 2016 года – Предоставление результатов участниками и регулярный расчет предварительного рейтинга
до 23:59 28 августа 2016 года – Определение победителей 2 этапа

3 этап (изображения + заголовки + описания):

29 августа 2016 года – Старт 3 этапа
до 23:59 18 сентября 2016 года – Предоставление участниками дополнительных внешних данных, используемых для обучения
до 23:59 28 сентября 2016 года – Предоставление результатов участниками и регулярный расчет предварительного рейтинга
до 23:59 02 октября 2016 года – Определение победителей 3 этапа

до 23:59 14 октября 2016 года – Публикация презентаций победителей каждого из этапов на странице конкурса

Avito

Avito является самым большим в России сайтом объявлений. Миллионы людей ежедневно заходят на портал, чтобы продать или купить практически всё, что пожелают: от цифровой техники и одежды до автомобилей и недвижимости. Объявления размещают частные лица, предприниматели и компании, поэтому на Avito.ru можно купить как бывшие в употреблении вещи, так и абсолютно новые товары.На Avito более 24 миллионов активных объявлений и каждый день огромное количество объявлений создается или изменяется.

Миссия Avito.ru — соединить продавцов и покупателей по всей России, изменив их повседневную жизнь к лучшему.

Описание задачи

Цель конкурса – создание эффективного алгоритма определения категории объявления.

Этот конкурс представляет из себя длительный "марафон": это три последовательных этапа с одной и той же задачей и постепенно расширяющимся набором признаков. Основная задача - определить категорию объявления.

Этот конкурс представляет из себя длительный "марафон": на трех последовательных этапах участникам предстоит решать задачу определения категории объявления с постепенно расширяющимся набором признаков.

На первом этапе для каждого объявления предоставляется одно изображение.
На втором этапе в дополнение к имеющимся данным выгружаются заголовки объявлений.
На третьем этапе ко всему этому добавляются текстовые описания товаров.

Ниже приведены примеры изображений, заголовков и описаний продаваемых товаров.

Заголовок:

Шотландцы с отличными породными данными

Заголовок:

Роскошное платье в греческом стиле желтое mysya

Заголовок:

Дверь задняя правая для Ауди Q7

Заголовок:

Павильон по продаже шаурмы в проходном месте

Описание:

Шотландские вислоухие котята готовы к переезду! Возраст 6 недель. Привиты, ветеринарные паспорта имеются.

Коротко о породе: Вислоухие шотландские кошки (скоттиш-фолд) обладают спокойным темпераментом, обожают играть с детьми. Они имеют необычную особенность - они любят стоять на задних лапах. Обычно такую стойку шотландцы принимают, когда им что-то любопытно. Пока котятки маленькие, они любят играть, с возрастом питомец становится более сдержанным. У многих шотландцев есть привычка спать на спине, выглядит это очень мило.

Звоните скорее! Вы обретете прекрасного друга!

Описание:

Распродаю гардероб. Шикарное платье в греческом стиле. Желтый и желто-лимонный цвет - тренд этого года. Украшено металлическими колечками на бретельке. Одевалось один раз на день рождения. Покупала за 4200. Все мои объявления можно посмотреть забив в поиске mysya.

Описание:

Задняя правая дверь Ауди Q7. Б.У оригинал с небольшим дефектом. В нашем магазине предоставлен не весь перечень запчастей, имеющихся на складе. Наличие и цену уточняйте по телефону! Отправим в регион!

Описание:

Продается бизнес по продаже продуктов быстрого питания в проходном месте! Территориально м.авиамоторная. Рядом офисы и учебные заведения. Площадь 8 кв.м., низкая арендная ставка 60тр., 10-13тр. к/у. Работа 24 часа. Штат из двух сотрудников. Дневная смена 1600р., ночная 1100р. Продукция: шаурма, куры гриль, шашлыки, крылья, ход доги. Холодильники, спиралевый мангал и т.д. Установлено видеонаблюдение. В день продается 25 кг. Выручка в день от 10 тр.

Причина продажи: пмж область

Категория:

Животные/Кошки

Категория:

Личные вещи/Одежда, обувь, аксессуары

Категория:

Транспорт/Запчасти и аксессуары

Категория:

Для бизнеса/Готовый бизнес


Описание данных

Обучающая выборка, выборка A, состоит из 600 000 объявлений, классифицированных на 300 категорий. Эта выборка используется участниками для настройки своих алгоритмов.

Контрольная выборка состоит из 300 000 объявлений. Участникам предстоит классифицировать эти объявления по категориям. Эта выборка будет использоваться для составления промежуточного и итогового рейтингов участников. Промежуточный рейтинг будет рассчитываться по 1/3 объявлений из контрольной выборки (выборка B). Итоговый рейтинг будет рассчитываться на каждом этапе по 2/3 объявлений контрольной выборки (выборка C). Разбиение контрольной выборки на выборки B и C участникам не раскрывается.

Изображения имеют формат jpg, ответы по обучающей выборке представлены в csv-файле в формате id, label, где id – имя файла изображения, а label – метка класса.

Данные можно получить после регистрации в конкурсе.

Внешние данные

Для обучения моделей разрешается использовать внешние коллекции изображений с автомобилями, размеченные на рассматриваемые в конкурсе классы. При этом внешние коллекции должны быть разрешены к коммерческому использованию для обучения моделей. В случае использования внешних коллекций участник обязан прислать информацию об этом и соответствующую размеченную выборку на адрес competitions@forecsys.ru до 10 апреля. 15 апреля организаторы сделают эту коллекцию доступной всем участникам вместе с публикацией выборки B.

Функционал качества алгоритма распознавания

Качество работы алгоритмов распознавания оценивается как доля верно соотнесенных к своему классу объектов.

Регистрация участников

Для регистрации в конкурсе потенциальному участнику необходимо прислать письмо по электронной почте на адрес competitions@forecsys.ru с темой «Avito-2016-2: Регистрация», содержащее никнейм участника – имя/псевдоним, которое будет отображаться в предварительном рейтинге участников, формируемом в течение первого этапа. Кроме того следует указать источник информации о конкурсе. Адрес электронной почты участника будет использоваться для его идентификации.

Заявкой на регистрацию в конкурсе Вы подтверждаете, что ознакомились и согласны с Правилами конкурса.

Этапы и сроки проведения конкурса

Конкурс проводится в два этапа.

Этап первый: настройка алгоритмов распознавания

Первый этап проводится с момента объявления конкурса 21 марта 2016 года и до 23:59 24 апреля 2016 года.

На данном этапе участники, используя обучающую выборку А, настраивают свои алгоритмы классификации изображений на 236 классов.

Для проверки качества алгоритмов и составления предварительного рейтинга результатов участники отправляют файл с результатами на выборке B по электронной почте на адрес competitions@forecsys.ru, указав в теме письма «Результаты B: Никнейм участника» (письмо должно быть отправлено с того же электронного адреса, что и при регистрации участника).

Результаты представляются в csv-формате (образец файла здесь). Рекомендуемый формат имени файла “YYYYMMDD_Никнейм_участника_Results_B_version1.csv”. Файл с результатами содержит два столбца: в первом столбце указаны идентификаторы изображений (имена файлов), а во втором – идентификаторы класса, к которому алгоритм сопоставил эти изображения. Пропуски и строковые значения не допускаются.

Два раза в неделю – понедельник и четверг до 23:59 по московскому времени – осуществляется прием писем с предсказаниями классов для выборки B для составления очередного предварительного рейтинга участников. В течение следующего рабочего дня будет обновлен предварительный рейтинг результатов участников. Для расчета рейтинга используются результаты участника, полученные в последнем письме.

10 апреля 2016 года – крайний срок предоставления дополнительных внешних данных, используемых для обучения. После 10 апреля запрещено использовать любые дополнительные данные.

15 апреля 2016 года участникам предоставляется для скачивания ответы для выборки B, которые участники могут использовать для дальнейшей настройки алгоритмов. Также становятся доступными внешние данные, которые использовались одним из участников.

До 23:59 24 апреля участники должны прислать MD5-сумму ZIP-архива c файлами окончательной версии программы алгоритма. Сами программы будут собираться позднее и будут использованы для проверки воспроизводимости результатов участника, претендующего на победу в конкурсе, на контрольной выборке C. Участники, не приславшие вовремя MD5-суммы своих алгоритмов, не смогут претендовать на победу в конкурсе.

Этап второй: применение алгоритмов на контрольной выборке C

Второй этап проводится с 25 апреля по 23:59 28 апреля 2016 года

25 апреля 2016 года участникам предоставляется для скачивания контрольная выборка C.

До 28 апреля 2016 года участники высылают результаты работы алгоритмов на выборке C по электронной почте на адрес competitions@forecsys.ru, указав в теме письма «Результаты C: Никнейм участника». Рекомендуемый формат имени файла “YYYYMMDD_Никнейм_участника_Results_C_version1.csv”.

Последние присланные участником результаты до 23:59 28 апреля 2016 года на контрольной выборке C будут использованы при определении победителей конкурса.

Процедура определения победителей и призовой фонд

На каждом этапе награждаются два первых места.

Денежная премия:

1-е место 100 000 рублей (без учета налогов).
2-е место 50 000 рублей (без учета налогов).

Jobs:

Возможность устроиться в Avito специалистом по анализу данных.
Если Вы заинтересованы в работе в Avito, сообщите об этом в регистрационном письме.

Победителем конкурса (первое место) станет участник, алгоритм которого продемонстрировал наилучший результат на контрольной выборке C.
Второе место займет участник, алгоритм которого продемонстрировал второй по качеству результат на контрольной выборке С.

Информация о победителях будет опубликована на странице конкурса до 10 мая 2016 г.

Воспроизводимость результата работы алгоритма участника с использованием присылаемой участником программы алгоритма является обязательным условием признания этого участника победителем конкурса. Предоставление организаторам необходимого ПО и помощь в воспроизведении результатов работы алгоритма является обязанностью участника. Кроме того, участник должен подготовить описание алгоритма.

Публикация презентаций победителей

Победителям конкурса предоставляется возможность опубликовать презентации своих алгоритмов на странице конкурса. Презентация должна кратко и наглядно иллюстрировать подход участника к решению задачи, применяемые методы и полученные результаты. Формат и содержание презентации согласуются с организаторами.

Требования к программному обеспечению

Призовое место участник может занять только в том случае, если он использовал программное обеспечение (ПО), которое не требует лицензии для коммерческого использования.

К ПО предъявляется требование – возможность воспроизведения организаторами результатов работы алгоритмов участников.

Запрещается использовать различные внешние данные, которые не были согласованы с организаторами, или свойства других изображений.

Предоставление организаторам необходимого ПО и помощь в воспроизведении результатов является обязанностью участника.

Подстраницы

Личные инструменты