Участник:Pavel Levdik/Песочница
Материал из MachineLearning.
Конкурс VAS Uplift competition Avito.ru — конкурс по решению прикладной задачи из области анализа данных, проводимый при информационной поддержке 10-й Международной конференции «Интеллектуализация обработки информации-2014» (ИОИ-2014), Греция, о. Крит, 4-11 октября 2014 года.
Организаторы конкурса – компания Avito.ru и ее партнер – компания Форексис.
Вопросы организаторам конкурса можно задавать в обсуждении страницы конкурса для зарегистрированных на портале MachineLearning.ru пользователей, либо по электронной почте на адрес competition.avito.2014@forecsys.ru с указанием в теме письма «Вопрос».
С информацией об организаторе конкурса, правилах его проведения, количестве наград, сроках, месте и порядке их получения можно ознакомиться здесь.
Ключевые даты конкурса
8 июня 2014 года – Старт конкурса
до 23:59 10 июля – Регистрация участников
до 23:59 17 июля – Обучение и сбор результатов участников
20 июля – 31 июля – Определение победителей и проверка на воспроизводимость результатов
03 августа – 14 августа – публикация презентаций победителей на странице конкурса
Avito.ru
Avito.ru является самым большим в России сайтом объявлений. Миллионы людей ежедневно заходят на портал, чтобы продать или купить практически всё, что пожелают: от цифровой техники и одежды до автомобилей и недвижимости. Объявления размещают частные лица, предприниматели и компании, поэтому на Avito.ru можно купить как бывшие в употреблении вещи, так и абсолютно новые товары.
Миссия Avito.ru — соединить продавцов и покупателей по всей России, изменив их повседневную жизнь к лучшему.
На Avito.ru более 24 миллионов активных объявлений и каждый день огромное количество объявлений создается или изменяется. Эффективность Avito.ru в значительной степени зависит от качества заполнения содержания объявлений, поскольку качественные объявления позволяют покупателям оперативно находить подходящие предложения, а продавцам - продавать свои товары за считанные часы.
Описание задачи
По правилам Avito.ru в объявлении контактная информация продавца (например, телефон, e-mail, ссылка на сайт) должна быть указана в соответствующих текстовых полях. Это позволяет организовать удобный поиск для покупателей, эффективно находить дубликаты объявлений, организовывать черные списки недобросовестных продавцов и выявлять другие нарушения. Типичным нарушением является заполнение текстовых полей объявления недействительной контактной информацией, в то же время, на изображении предоставляется актуальная информация.
Цель конкурса – создание эффективного алгоритма распознавания изображений, содержащих контактную информацию.
Ниже приведены два примера изображений с контактной информацией.
Описание данных
Исходная выборка, выборка A, содержит 41 122 изображения, классифицированных на два класса:
- 1 – в изображении присутствует контактная информация (12031),
- 0 – в изображении отсутствует контактная информация (29091).
Выборка A используется для настройки алгоритмов участниками.
Еще 10 000 изображений, выборка B, являются тестовыми – ответы по ним известны только организаторам. Тестовые данные будут использоваться для составления промежуточного рейтинга участников, который обновляется два раза в неделю .
Третья выборка, выборка C, – контрольная, предоставляется участникам на втором этапе конкурса и содержит 10 000 изображений. Контрольная выборка будет использоваться для определения победителей конкурса. Подробнее об этапах конкурса .
Изображения имеют формат jpg, ответы по обучающей выборке представлены в csv-файле в формате Id, label, где Id – имя файла изображения, а label – метка класса, 0 или 1.
Update 08.10.2014 Использование структуры id изображений в алгоритме не допускается, id изображений в контрольной выборке C будут случайными. |
Данные можно скачать по ссылкам:
Выборка A – папка содержит обучающие изображения в формате jpg.
Выборка B – папка содержит тестовые изображения в формате jpg.
Выборка C – папка содержит контрольные изображения в формате jpg.
Метки классов объектов обучающей выборки – csv-файл содержит метки классов для выборки A.
Метки классов объектов тестовой выборки – csv-файл содержит метки классов для выборки В.
Функционал качества алгоритма распознавания
Качество работы алгоритмов распознавания оценивается показателем AUC – площадь под ROC-кривой.
Реализация функционала качества AUC в среде Matlab:
[X,Y,T,AUC] = perfcurve(labels,scores,posclass);
Регистрация участников
Для регистрации в конкурсе потенциальному участнику необходимо до 23:59 4 ноября 2014 года прислать письмо по электронной почте на адрес competition.avito.2014@forecsys.ru с темой «Регистрация», содержащее никнейм участника – имя/псевдоним, которое будет отображаться в предварительном рейтинге участников, формируемом в течение первого этапа. Адрес электронной почты участника будет использоваться для его идентификации.
Заявкой на регистрацию в конкурсе Вы подтверждаете, что ознакомились и согласны с Правилами конкурса.
Этапы и сроки проведения конкурса
Конкурс проводится в два этапа.
Этап первый: настройка алгоритмов распознавания
Первый этап проводится с момента объявления конкурса 1 октября 2014 года и до 23:59 13 ноября 2014 года.
На данном этапе участники, используя обучающую выборку А, настраивают свои алгоритмы классификации изображений на два класса: содержащие и не содержащие контактную информацию. Алгоритм оценивает вероятность принадлежности изображения к классу изображений, содержащих контактную информацию.
Для проверки качества алгоритмов и составления предварительного рейтинга результатов участники отправляют файл с результатами на выборке B по электронной почте на адрес competition.avito.2014@forecsys.ru, указав в теме письма «Результаты B: Никнейм участника» (письмо должно быть отправлено с того же электронного адреса, что и при регистрации участника).
Результаты представляются в csv-формате (образец файла здесь). Рекомендуемый формат имени файла “YYYYMMDD_Никнейм_участника_Results_B_version1.csv”. Файл с результатами содержит два столбца: в первом столбце указаны идентификаторы изображений (имена файлов), а во втором – вещественные оценки вероятностей нахождения на изображениях контактной информации. Значения оценок вероятностей должны принадлежать отрезку [0,1]. Пропуски и строковые значения не допускаются.
Два раза в неделю – понедельник и четверг до 23:59 по московскому времени – осуществляется прием писем с оценками вероятностей для выборки B для составления очередного предварительного рейтинга участников. В течение следующего рабочего дня будет обновлен предварительный рейтинг результатов участников. Для расчета рейтинга используются результаты участника, полученные в последнем письме.
Update 11.11.2014 Рейтинг участников зафиксирован и больше не обновляется ввиду того, что уже выложены метки классов объектов тестовой выборки В. |
7 ноября 2014 года участникам предоставляется для скачивания ответы для выборки B, которые участники могут использовать для дальнейшей настройки алгоритмов.
До 23:59 13 ноября участники должны прислать ZIP-архив c файлами программы алгоритма. Программа алгоритма будет использована для проверки воспроизводимости результатов участника, претендующего на победу в конкурсе, на контрольной выборке C. Участники, не приславшие вовремя свои алгоритмы, не смогут претендовать на победу в конкурсе.
Этап второй: применение алгоритмов на контрольной выборке C
Второй этап проводится с 14 ноября по 23:59 18 ноября 2014 года
14 ноября 2014 года участникам предоставляется для скачивания контрольная выборка C.
С 15 ноября по 23:59 18 ноября 2014 года участники высылают результаты работы алгоритмов на выборке C (образец файла здесь) по электронной почте на адрес competition.avito.2014@forecsys.ru, указав в теме письма «Результаты C: Никнейм участника». Рекомендуемый формат имени файла “YYYYMMDD_Никнейм_участника_Results_C_version1.csv”.
Последние присланные участником результаты до 23:59 18 ноября 2014 года на контрольной выборке C будут использованы при определении победителей конкурса.
Процедура определения победителей и призовой фонд
Победителем конкурса (первое место) станет участник, алгоритм которого продемонстрировал наилучший результат на контрольной выборке C.
Второе место займет участник, алгоритм которого продемонстрировал наилучший результат на контрольной выборке C среди тех участников, которые использовали только некоммерческое ПО. В случае, если первое место занял участник, использовавший только некоммерческое ПО, второе место достанется следующему участнику по оценке качества алгоритма по результатам на выборке C среди тех, кто использовал только некоммерческое ПО.
Информация о победителях будет опубликована на странице конкурса до 10 декабря 2014 г.
Воспроизводимость результата работы алгоритма участника с использованием присланной ранее программы алгоритма является обязательным условием признания этого участника победителем конкурса. Предоставление организаторам необходимого ПО и помощь в воспроизведении результатов работы алгоритма является обязанностью участника. Кроме того, участник должен подготовить описание алгоритма.
Денежная премия:
- 1-е место 100 000 рублей (без учета налогов).
- 2-е место 50 000 рублей (без учета налогов).
- 1-е место 100 000 рублей (без учета налогов).
Публикация презентаций победителей
Победителям конкурса предоставляется возможность опубликовать презентации своих алгоритмов на странице конкурса. Презентация должна кратко и наглядно иллюстрировать подход участника к решению задачи, применяемые методы и полученные результаты. Формат и содержание презентации согласуются с организаторами.
Требования к программному обеспечению
Приветствуется, в первую очередь, использование программного обеспечения (ПО), которое не требует лицензии для коммерческого использования. Использование коммерческого ПО также допускается.
К ПО предъявляется одно общее требование – возможность воспроизведения организаторами результатов работы алгоритмов участников без приобретения каких-либо лицензий, например, используя тестовые версии соответствующего ПО, которые находятся в открытом доступе на сайте производителя ПО.
Предоставление организаторам необходимого ПО и помощь в воспроизведении результатов является обязанностью участника.
Требования к описанию алгоритма распознавания
Требуется предоставить файл формата .doc, docx или .pdf с описанием алгоритма на русском языке по следующему шаблону:
- Идентификация
Никнейм и адрес электронной почты участника. - Аннотация
4-6 предложений, объясняющих общий подход к построению алгоритма, включающих, например, принципы генерации или отбора признаков и метод обучения.
- Генерация и отбор признаков
Описание метода генерации и/или отбора признаков изображений. Список и общее описание выбранных признаков.
- Процесс обучения
Описание деталей метода обучения, использованного для построения алгоритма. Если комбинировались или объединялись разные методы, опишите каким образом. - Описание программы алгоритма
Для каждой функции:
- входные переменные
- выходные переменные
- что функция делает
- Зависимости
Список зависимостей, библиотек, функций, пакетов или код других сторонних компаний, использованных для создания алгоритма. - Инструкция по воспроизведению (аналог README файла)
Пошаговая инструкция для создания проекта из приведенного кода. - Дополнительные комментарии и наблюдения
Любые дополнительные комментарии или наблюдения по поводу данных, алгоритма или процесса улучшения алгоритма. - Графики
Графики или картинки, которые были сделаны из данных или в процессе обучения и которые показались полезными или интересными. - Ссылки
Необходимые ссылки или другие внешние источники информации.
Подстраницы
Конкурс Avito.ru-2014: распознавание контактной информации на изображениях/Рейтинг участников |
Статья не в общественном достоянии. Представленная здесь информация не может использоваться без согласия автора. |
файл с описанием алгоритма
Правила конкурса (текст соглашения участников с организаторами) будут опубликованы в ближайшее время.
Заявкой на регистрацию в конкурсе Вы подтверждаете, что ознакомились и согласны с Правилами конкурса.
Ключевые даты конкурса
1 октября 2014 года – Старт конкурса
до 4 ноября 23:59 – Регистрация участников
до 11 ноября 23:59 – Обучения алгоритмов
до 13 ноября 23:59 – Сбор алгоритмов участников
14 ноября – Предоставление контрольной выборки C и ответов для выборки B
до 18 ноября 23:59 – Сбор результатов алгоритмов на контрольной выборке C
19 ноября – 9 декабря – Определение победителей и проверка на воспроизводимость результатов, публикация презентаций победителей на портале MachineLearning.ru
Ключевые даты конкурса
01.10.2014 – Старт конкурса
до 04.11 23:59 – Регистрация участников
до 11.11 23:59 – Обучения алгоритмов
до 13.11 23:59 – Сбор алгоритмов участников
14.11 – Предоставление контрольной выборки C и ответов для выборки B
до 18.11 23:59 – Сбор результатов алгоритмов на контрольной выборке C
19.11 – 9.12 – Определение победителей и проверка на воспроизводимость результатов, публикация презентаций победителей на портале MachineLearning.ru
Новость на главной странице сайта
1 октября 2014 года — стартует Конкурс по распознаванию контактной информации на изображениях Avito.ru, проводимый при информационной поддержке 10-й Международной конференции «Интеллектуализация обработки информации-2014» (ИОИ-2014), Греция, о. Крит, 4-11 октября 2014 года.
Баннерная новость
1 октября 2014 года — стартует Конкурс по распознаванию контактной информации на изображениях, проводимый при информационной поддержке 10-й Международной конференции «Интеллектуализация обработки информации-2014» (ИОИ-2014), Греция, о. Крит, 4-11 октября 2014 года.
Организатор конкурса – самый большой в России сайт объявлений Avito.ru.
Цель конкурса – создание эффективного алгоритма распознавания изображений, содержащих контактную информацию.
Ознакомиться с условиями конкурса и скачать данные можно на странице конкурса.
Рейтинг участников конкурса по распознаванию контактной информации на изображениях
Никнейм участника | Рейтинг | Дата последнего обновления |
---|---|---|
Vasya | 0.781 | 25.09.2014 |
Иванов Иван | 0.669 | 21.09.2014 |
Читер | 0.72 | 24.09.2014 |
ТУЛГУ | 0.612 | 25.09.2014 |
Шадовец | 0.605 | 25.09.2014 |
здесь - просто тренировочка выкладывания файла
The main title
Subtitle
Sub-subtitle
Text.
Continious text.
cut the row without new paragraph
New row
Second title
Text
List:
- First
- 1.1
- text of 1.1
- 1.2
- and text for this
- 1.1
- Second
- 2.1
Numeric list
- this must be first
- this must be 1.1
- this should be 1.1.1
- 1.2
- this must be 1.1
- Second
Nice!
Можно также делать смешанные списки:
- и вкладывать их
- как, например,
- здесь.
- и вкладывать их
Еще один заголовок
- вот отступ
а тут начался абзац
линия прям как после заголовков
Выравнивание посердине
Выравнивание влево.
Выравнивание вправо.
Можно ссылаться на подраздел в самой статье,
указав его после «решётки»:
внутренняя ссылка(по странице).
Внешняя ссылка: Википедия
Подпись
Краткая подпись: Pavel Levdik
Полная подпись (предпочтительнее): — Pavel Levdik 09:09, 22 сентября 2014 (MSD)
Текущая дата: 18 ноября 2024
Любая дата: 21 июня 2009
Пометка формул без автоматической нумерации:
Ссылки на формулы (1) и (3-a).
Печать фрагмента кода:
#include <iostream> using namespace std; int main() { int a; cin << a; int b = a + 4; cout >> b; return 0; }
Файлы
youtube
Ячейка А-1 | Ячейка Б-1 | Ячейка В-1 |
Ячейка А-2 | Ячейка Б-2 | Ячейка В-2 |
Ячейка А-3 | Ячейка Б-3 | Ячейка В-3 |