Соревнование Inventum Data Mining Contest
Материал из MachineLearning.
(→Данные) |
|||
Строка 33: | Строка 33: | ||
* Пятый (целевой) – цена. | * Пятый (целевой) – цена. | ||
- | + | По последним двум дням (''test9'', ''test10'') представлена аналогичная информация, но некоторые значения цены заменены на ''NaNы'' – их и надо предсказать. | |
+ | |||
+ | Также участникам доступен архив m-файлов, в которых прописана процедура генерации тестовой выборки, | ||
+ | функция оценки решения и функция визуализации ''PlotPrice'' | ||
+ | (анализ кода позволит лучше понять данные). | ||
== Специфика == | == Специфика == |
Версия 16:43, 23 ноября 2012
Открытый Data Mining Contest кафедры ММП ВМК МГУ
- Спонсор и поставщик данных: компания Inventum Algorithmic Asset Management
- Организатор: Дьяконов Александр Геннадьевич
Соревнование скоро стартует. 26 ноября 2012 года будут доступны данные. |
|
Задача
Прогнозирование временного ряда (котировки одного из финансовых инструментов).
Призы
- Первое место (по функционалу качества) – 10000 руб.
- Приз жюри – 10000 руб. (здесь оценивается эффективность алгоритма, краткость и изящество кода, полнота отчёта, умные вопросы и замечания).
Данные
Полностью природа данных не разглашается.
Участникам запрещается искать источники данных!
В mat-файле лежат массивы, которые соответствуют 10 рабочим дням (пн–птн, пн–птн).
По восьми рабочим дням (price1,...,price8) есть полная информация.
Каждая матрица здесь имеет следующий формат:
- Первый столбец – час,
- Второй – минута,
- Третий – секунда,
- Четвёртый – тысячная доли секунды,
- Пятый (целевой) – цена.
По последним двум дням (test9, test10) представлена аналогичная информация, но некоторые значения цены заменены на NaNы – их и надо предсказать.
Также участникам доступен архив m-файлов, в которых прописана процедура генерации тестовой выборки, функция оценки решения и функция визуализации PlotPrice (анализ кода позволит лучше понять данные).
Специфика
Естественно, при прогнозе нельзя использовать информацию о будущем. Данные в последние два дня представляют последовательности отрезков известных и неизвестных значений. Каждый блок [известное, неизвестное] «сдвинут по вертикали» на случайное число. Это сделано для того, чтобы нельзя было узнать будущие цены и определить тренд.
Форма участия
Независимо от того, как было получено решение, оно принимается от одного участника (нельзя присылать командные решения). Слава, призы и баллы по практикуму (для студентов 317 группы ВМК) являются индивидуальными достижениями. Соревнование обязательно для студентов 317 группы ВМК МГУ и открыто для любых других участников.
Формат решения
Каждый участник присылает письмо на ящик inventum-contest@yandex.ru.
Заголовок письма – Имя и Фамилия (настоящие, псевдонимы не принимаются).
Текст письма значения не имеет и не будет просматриваться.
Вложение – mat-файл и zip-архив m-файлов, с помощью которых он был получен.
В mat-файле должны лежать ровно три переменные:
- name – строка с Фамилией и Именем (совпадает с темой письма),
- test9,
- test10.
Последние две матрицы могут быть получены из данных с помощью замены NaNов на прогнозируемые значения. Но для экономии объёма пересылаемого письма можно присылать только целевые вектор-столбцы.
В одном из писем каждого участника (видимо, в последнем) должен также содержаться отчёт о решении задачи (прикладывается в виде отдельного doc или pdf-файла).
Отчёт
Особых требований к отчёту нет. Должна быть чётко прописана логика решения, эксперименты, которые были сделаны, реализованные алгоритмы и основные выводы.
Оценка решения
В каждой точке, в которой нужно было сделать прогноз, измеряется ошибка прогноза. Если тренд угадан (т.е. прогнозируемое и реальное значения больше последней известной цены или одновременно меньше – угадано повышение или понижение цены), то ошибка прогноза в этой точке – модуль отклонения от настоящего значения. Иначе – квадрат отклонения.
Даты
- Соревнование стартует 26 ноября 2012 г.,
- заканчивается – 17 декабря 2012 г..
В течение каждой недели можно слать письма с решениями на ящик. Они обрабатываются и формируется автоматический рейтинг. За неделю можно прислать одно письмо. В качестве итогового ответа засчитывается лучшее присланное решение (переобучение вряд ли произойдёт, поскольку каждый участник имеет максимум 3 попытки).
Среда разработки
Участники должны реализовывать алгоритмы в среде Matlab. Не запрещается пользоваться сторонними пакетами и любыми алгоритмами для этой среды. Допускается решение и в других средах, однако ответ должен быть в mat-формате (в этом случае участник не может претендовать на приз «первое место по лидерборду», но может получить «приз жюри», если обоснует в отчёте необходимость использования другой среды).
Вопросы
могут быть заданы на страничке соревнования на вкладке [Обсуждение]. Ответы могут даваться другими участниками (каждый подписывает свой ответ). Такая активность также учитывается при розыгрыше «приза жюри».