Соревнование Inventum Data Mining Contest

Материал из MachineLearning.

Перейти к: навигация, поиск

Открытый Data Mining Contest кафедры ММП ВМК МГУ


Соревнование скоро стартует.

26 ноября 2012 года будут доступны данные.


Содержание

Задача

Прогнозирование временного ряда (котировки одного из финансовых инструментов).

Призы

  • Первое место (по функционалу качества) – 10000 руб.
  • Приз жюри – 10000 руб. (здесь оценивается эффективность алгоритма, краткость и изящество кода, полнота отчёта, умные вопросы и замечания).

Данные

Полностью природа данных не разглашается.
Участникам запрещается искать источники данных!
В mat-файле лежат массивы, которые соответствуют 10 рабочим дням (пн–птн, пн–птн).
По восьми рабочим дням (price1,...,price8) есть полная информация.
Каждая матрица здесь имеет следующий формат:

  • Первый столбец – час,
  • Второй – минута,
  • Третий – секунда,
  • Четвёртый – тысячная доли секунды,
  • Пятый (целевой) – цена.

Функцией PlotPrice можно сделать соответствующую визуализацию. По последним двум дням (test9, test10) представлена аналогичная информация, но некоторые значения цены заменены на NaNы – их и надо предсказать.

Специфика

Естественно, при прогнозе нельзя использовать информацию о будущем. Данные в последние два дня представляют последовательности отрезков известных и неизвестных значений. Каждый блок [известное, неизвестное] «сдвинут по вертикали» на случайное число. Это сделано для того, чтобы нельзя было узнать будущие цены и определить тренд.

Форма участия

Независимо от того, как было получено решение, оно принимается от одного участника (нельзя присылать командные решения). Слава, призы и баллы по практикуму (для студентов 317 группы ВМК) являются индивидуальными достижениями. Соревнование обязательно для студентов 317 группы ВМК МГУ и открыто для любых других участников.

Формат решения

Каждый участник присылает письмо на ящик inventum-contest@yandex.ru.


Заголовок письма – Имя и Фамилия (настоящие, псевдонимы не принимаются).
Текст письма значения не имеет и не будет просматриваться.
Вложение – mat-файл и zip-архив m-файлов, с помощью которых он был получен.

В mat-файле должны лежать ровно три переменные:

  • name – строка с Фамилией и Именем (совпадает с темой письма),
  • test9,
  • test10.

Последние две матрицы могут быть получены из данных с помощью замены NaNов на прогнозируемые значения. Но для экономии объёма пересылаемого письма можно присылать только целевые вектор-столбцы.

В одном из писем каждого участника (видимо, в последнем) должен также содержаться отчёт о решении задачи (прикладывается в виде отдельного doc или pdf-файла).

Отчёт

Особых требований к отчёту нет. Должна быть чётко прописана логика решения, эксперименты, которые были сделаны, реализованные алгоритмы и основные выводы.

Оценка решения

В каждой точке, в которой нужно было сделать прогноз, измеряется ошибка прогноза. Если тренд угадан (т.е. прогнозируемое и реальное значения больше последней известной цены или одновременно меньше – угадано повышение или понижение цены), то ошибка прогноза в этой точке – модуль отклонения от настоящего значения. Иначе – квадрат отклонения.

Даты

  • Соревнование стартует 26 ноября 2012 г.,
  • заканчивается – 17 декабря 2012 г..

В течение каждой недели можно слать письма с решениями на ящик. Они обрабатываются и формируется автоматический рейтинг. За неделю можно прислать одно письмо. В качестве итогового ответа засчитывается лучшее присланное решение (переобучение вряд ли произойдёт, поскольку каждый участник имеет максимум 3 попытки).

Среда разработки

Участники должны реализовывать алгоритмы в среде Matlab. Не запрещается пользоваться сторонними пакетами и любыми алгоритмами для этой среды. Допускается решение и в других средах, однако ответ должен быть в mat-формате (в этом случае участник не может претендовать на приз «первое место по лидерборду», но может получить «приз жюри», если обоснует в отчёте необходимость использования другой среды).

Вопросы

могут быть заданы на страничке соревнования на вкладке [Обсуждение]. Ответы могут даваться другими участниками (каждый подписывает свой ответ). Такая активность также учитывается при розыгрыше «приза жюри».

Личные инструменты