Соревнование Inventum Data Mining Contest

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Данные)
Строка 33: Строка 33:
* Пятый (целевой) – цена.
* Пятый (целевой) – цена.
-
Функцией ''PlotPrice'' можно сделать соответствующую визуализацию. По последним двум дням (''test9'', ''test10'') представлена аналогичная информация, но некоторые значения цены заменены на ''NaNы'' – их и надо предсказать.
+
По последним двум дням (''test9'', ''test10'') представлена аналогичная информация, но некоторые значения цены заменены на ''NaNы'' – их и надо предсказать.
 +
 
 +
Также участникам доступен архив m-файлов, в которых прописана процедура генерации тестовой выборки,
 +
функция оценки решения и функция визуализации ''PlotPrice''
 +
(анализ кода позволит лучше понять данные).
== Специфика ==
== Специфика ==

Версия 16:43, 23 ноября 2012

Открытый Data Mining Contest кафедры ММП ВМК МГУ


Соревнование скоро стартует.

26 ноября 2012 года будут доступны данные.


Содержание


Задача

Прогнозирование временного ряда (котировки одного из финансовых инструментов).

Призы

  • Первое место (по функционалу качества) – 10000 руб.
  • Приз жюри – 10000 руб. (здесь оценивается эффективность алгоритма, краткость и изящество кода, полнота отчёта, умные вопросы и замечания).

Данные

Полностью природа данных не разглашается.
Участникам запрещается искать источники данных!
В mat-файле лежат массивы, которые соответствуют 10 рабочим дням (пн–птн, пн–птн).
По восьми рабочим дням (price1,...,price8) есть полная информация.
Каждая матрица здесь имеет следующий формат:

  • Первый столбец – час,
  • Второй – минута,
  • Третий – секунда,
  • Четвёртый – тысячная доли секунды,
  • Пятый (целевой) – цена.

По последним двум дням (test9, test10) представлена аналогичная информация, но некоторые значения цены заменены на NaNы – их и надо предсказать.

Также участникам доступен архив m-файлов, в которых прописана процедура генерации тестовой выборки, функция оценки решения и функция визуализации PlotPrice (анализ кода позволит лучше понять данные).

Специфика

Естественно, при прогнозе нельзя использовать информацию о будущем. Данные в последние два дня представляют последовательности отрезков известных и неизвестных значений. Каждый блок [известное, неизвестное] «сдвинут по вертикали» на случайное число. Это сделано для того, чтобы нельзя было узнать будущие цены и определить тренд.

Форма участия

Независимо от того, как было получено решение, оно принимается от одного участника (нельзя присылать командные решения). Слава, призы и баллы по практикуму (для студентов 317 группы ВМК) являются индивидуальными достижениями. Соревнование обязательно для студентов 317 группы ВМК МГУ и открыто для любых других участников.

Формат решения

Каждый участник присылает письмо на ящик inventum-contest@yandex.ru.


Заголовок письма – Имя и Фамилия (настоящие, псевдонимы не принимаются).
Текст письма значения не имеет и не будет просматриваться.
Вложение – mat-файл и zip-архив m-файлов, с помощью которых он был получен.

В mat-файле должны лежать ровно три переменные:

  • name – строка с Фамилией и Именем (совпадает с темой письма),
  • test9,
  • test10.

Последние две матрицы могут быть получены из данных с помощью замены NaNов на прогнозируемые значения. Но для экономии объёма пересылаемого письма можно присылать только целевые вектор-столбцы.

В одном из писем каждого участника (видимо, в последнем) должен также содержаться отчёт о решении задачи (прикладывается в виде отдельного doc или pdf-файла).

Отчёт

Особых требований к отчёту нет. Должна быть чётко прописана логика решения, эксперименты, которые были сделаны, реализованные алгоритмы и основные выводы.

Оценка решения

В каждой точке, в которой нужно было сделать прогноз, измеряется ошибка прогноза. Если тренд угадан (т.е. прогнозируемое и реальное значения больше последней известной цены или одновременно меньше – угадано повышение или понижение цены), то ошибка прогноза в этой точке – модуль отклонения от настоящего значения. Иначе – квадрат отклонения.

Даты

  • Соревнование стартует 26 ноября 2012 г.,
  • заканчивается – 17 декабря 2012 г..

В течение каждой недели можно слать письма с решениями на ящик. Они обрабатываются и формируется автоматический рейтинг. За неделю можно прислать одно письмо. В качестве итогового ответа засчитывается лучшее присланное решение (переобучение вряд ли произойдёт, поскольку каждый участник имеет максимум 3 попытки).

Среда разработки

Участники должны реализовывать алгоритмы в среде Matlab. Не запрещается пользоваться сторонними пакетами и любыми алгоритмами для этой среды. Допускается решение и в других средах, однако ответ должен быть в mat-формате (в этом случае участник не может претендовать на приз «первое место по лидерборду», но может получить «приз жюри», если обоснует в отчёте необходимость использования другой среды).

Вопросы

могут быть заданы на страничке соревнования на вкладке [Обсуждение]. Ответы могут даваться другими участниками (каждый подписывает свой ответ). Такая активность также учитывается при розыгрыше «приза жюри».

Личные инструменты