Обсуждение:Соревнование Inventum Data Mining Contest

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Система бэнчмарков: Новая тема)
Текущая версия (13:02, 26 декабря 2012) (править) (отменить)
 
(28 промежуточных версий не показаны.)
Строка 1: Строка 1:
-
* '''Оценивание решения''' Хотелось бы уточнить каким образом вычисляется ошибочность нашего прогноза на test9 и test10? Ошибки на каждом тесте просто суммируются или находится среднее арифметическое ошибок на этих двух тестах (подобный вариант был предложен в файле readme.m)... Заранее спасибо за ответ!!! [[Участник:Alex.Ryzhkov|Александр Рыжков]] 0043, 29 ноября 2012 (MSK)
+
* '''Отчет''' Можно отправить отчет не до 23:59, а, скажем, до 8 утра четверга? [[Участник:OlegHaracidi|Олег Харациди]] 22:21, 25 декабря 2012 (MSK)
-
* '''Ответ:''' Находится среднее арифметическое. [[Участник:Dj|Дь-ов]] 13:37, 29 ноября 2012 (MSK)
+
-
* '''Вопрос''' Текст... [[Участник:Dj|Дь-ов]] 17:01, 23 ноября 2012 (MSK)
+
* '''Ответ:''' Kaggle бы не продлил dead-line, поэтому мне кажется, что нет.. Если я не прав, пускай организаторы меня поправят.. [[Участник:Alex.Ryzhkov|Александр Рыжков]] 23:33, 25 декабря 2012 (MSK)
-
* '''Ответ''' Текст... [[Участник:Dj|Дь-ов]] 17:01, 23 ноября 2012 (MSK)
+
-
== Система бэнчмарков ==
+
* '''Ответ2:''' Да, все в равных условиях. Кроме того, дедлайн уже продлён! Напоминаю, что раньше планировалось принимать отчёты до понедельника. Последние дни нужны для отправления решения на финальных данных "без спешки". Подразумевается, что отчёты уже фактически написаны. [[Участник:Dj|Дь-ов]] 16:02, 26 декабря 2012 (MSK)
-
Я чуток запутался. На преодоление каждого бэнчмарка отводится неделя. Но в начале мне показалось, что говорилось про то, что решения принимаются до понедельника, а пересчитываются в пятницу. Я изначально неправильно понял, или я не заметил, когда что-то поменялось?
+
* '''Ответ на информацию из будущего''' Конечно, кажется неразумным давать для теста статистику, которая предшествует дням-обучениям. Но это соревнование позволило точно сымитировать то, что происходит на практике. Когда я попросил больше данных для тестирования, мне дали… предыдущую неделю. Поэтому паниковать не надо. Для настройки модели можете использовать всё, что хотите. Но это используется для настройки её параметров. Нельзя в явном виде брать информацию из будущего! Здесь, что можно, а что нельзя легко определяется вашим умением понимать, что может приводить к переобучению. На кусках из test14 обучаться можно. [[Участник:Dj|Дь-ов]] 10:12, 20 декабря 2012 (MSK)
 +
 
 +
* '''Информация из будущего 2''' Еще раз. Во-первых, предположим, я умею пользоваться данными, смещенными по вертикали. Во-вторых, при прогнозе в test1 наверняка можно пользоваться алгоритмом, обученным на известных днях (priceN), которые по времени идут позже, то есть формально запрет на использование информации о будущем теряет смысл. Вопрос: правильно ли я понимаю, что теперь можно обучать алгоритм на известных кусках из test14 для прогноза на test1? [[Участник:OlegHaracidi|Олег Харациди]] 23:14, 19 декабря 2012 (MSK)
 +
 
 +
* '''Ответ:''' В случае того, что ты умеешь пользоваться смещенными данными, их можно использовать. Александр Геннадьевич говорил об этом, когда нам выдавали это задание ;) [[Участник:Alex.Ryzhkov|Александр Рыжков]] 23:26, 19 декабря 2012 (MSK)
 +
 
 +
* '''Информация из будущего''' «При прогнозе нельзя использовать информацию о будущем» — теперь, видимо, можно? И всю ли информацию о будущем можно использовать? [[Участник:OlegHaracidi|Олег Харациди]] 20:35, 19 декабря 2012 (MSK)
 +
 
 +
* '''Ответ:''' Теперь можно все — хардкор продолжается =)) P.S. Мы ей на самом деле и раньше не пользовались из-за прибавления к куску данных случайного числа от 0 до 300… И теперь тоже получается, что мы ей не пользуемся, поскольку тренд равновероятно мог убывать и возрастать в дни test1-test4, да и вообще мог вести себя там как угодно.. [[Участник:Alex.Ryzhkov|Александр Рыжков]] 20:56, 19 декабря 2012 (MSK)
 +
 
 +
* '''Модели Хольта и Брауна''' У меня у одного получается так, что при подборе параметров для моделей Хольта или Брауна получается так, что параметр на сглаживание «значений» получается ровно 1 (то есть берётся просто последнее известное значение), а на сглаживание «тренда» близок к 0.5. Из-за этого при прогнозировании почти всегда получается константа, ну или близкое к константе. [[Участник:SdvAnd|Андрей Шадриков]] 10:09, 12 декабря 2012 (MSK)
 +
 
 +
* '''Ответ''' Теоретически так может быть. На всякий случай напоминаю, что параметры надо настраивать под функционал задачи. Кстати, сейчас как раз идёт обсуждение некоторых изменений в задаче конкурса, которые предотвратят «оптимальные константные решения». [[Участник:Dj|Дь-ов]] 12:35, 12 декабря 2012 (MSK)
 +
 
 +
* '''Отчетность''' Если третий бенчмарк преодолен, обязательно ли присылать решение на этой неделе? [[Участник:Ankifor|Андрей Никифоров]] 00:26, 12 декабря 2012 (MSK)
 +
 
 +
* '''Ответ''' В принципе, нет, хотя вопрос свидетельствует об отсутствии проделанной работы ;) [[Участник:Dj|Дь-ов]] 12:35, 12 декабря 2012 (MSK)
 +
 
 +
* ''' Система бенчмарков ''' Я чуток запутался. На преодоление каждого бенчмарка отводится неделя. Но в начале мне показалось, что говорилось про то, что решения принимаются до понедельника, а пересчитываются в пятницу. Я изначально неправильно понял, или я не заметил, когда что-то поменялось? [[Участник:SdvAnd|Андрей Шадриков]] 22:57, 6 декабря 2012 (MSK)
 +
* '''Ответ:''' Собственно ситуация следующая — сейчас мы отправляем свои решения до 23:59 четверга соответственно эту (она уже, к сожалению, истекла) и две следующие недели (14.12.12 и 21.12.12), а после 21.12.12 до 24.12.12 12.00 MSK у нас есть последняя возможность прислать еще что-то более крутое и, скорее всего, отчет (если он не был прислан ранее) [[Участник:Alex.Ryzhkov|Александр Рыжков]] 00:17, 7 декабря 2012 (MSK)
 +
* Отчет высылается с последним решением (в смысле на последней неделе). Это я точно помню =) [[Участник:SdvAnd|Андрей Шадриков]] 08:03, 7 декабря 2012 (MSK)
 +
 
 +
* '''Ответ''' Александр прав. Неделя начинается с пятницы. Каждую пятницу происходит пересчет рейтинга. Первая неделя начиналась с понедельника, а последняя заканчивается в срок, обозначенный как ''конец соревнования''. Отчет присылается, когда участник считает, что больше ничего интересного не придумает… логично, если это будет в конце — с последним решением. [[Участник:Dj|Дь-ов]] 15:45, 9 декабря 2012 (MSK)
 +
 
 +
* '''Оценивание решения''' Хотелось бы уточнить каким образом вычисляется ошибочность нашего прогноза на test9 и test10? Ошибки на каждом тесте просто суммируются или находится среднее арифметическое ошибок на этих двух тестах (подобный вариант был предложен в файле readme.m)… Заранее спасибо за ответ!!! [[Участник:Alex.Ryzhkov|Александр Рыжков]] 0043, 29 ноября 2012 (MSK)
 +
* '''Ответ:''' Находится среднее арифметическое. [[Участник:Dj|Дь-ов]] 13:37, 29 ноября 2012 (MSK)

Текущая версия

  • Отчет Можно отправить отчет не до 23:59, а, скажем, до 8 утра четверга? Олег Харациди 22:21, 25 декабря 2012 (MSK)
  • Ответ: Kaggle бы не продлил dead-line, поэтому мне кажется, что нет.. Если я не прав, пускай организаторы меня поправят.. Александр Рыжков 23:33, 25 декабря 2012 (MSK)
  • Ответ2: Да, все в равных условиях. Кроме того, дедлайн уже продлён! Напоминаю, что раньше планировалось принимать отчёты до понедельника. Последние дни нужны для отправления решения на финальных данных "без спешки". Подразумевается, что отчёты уже фактически написаны. Дь-ов 16:02, 26 декабря 2012 (MSK)
  • Ответ на информацию из будущего Конечно, кажется неразумным давать для теста статистику, которая предшествует дням-обучениям. Но это соревнование позволило точно сымитировать то, что происходит на практике. Когда я попросил больше данных для тестирования, мне дали… предыдущую неделю. Поэтому паниковать не надо. Для настройки модели можете использовать всё, что хотите. Но это используется для настройки её параметров. Нельзя в явном виде брать информацию из будущего! Здесь, что можно, а что нельзя легко определяется вашим умением понимать, что может приводить к переобучению. На кусках из test14 обучаться можно. Дь-ов 10:12, 20 декабря 2012 (MSK)
  • Информация из будущего 2 Еще раз. Во-первых, предположим, я умею пользоваться данными, смещенными по вертикали. Во-вторых, при прогнозе в test1 наверняка можно пользоваться алгоритмом, обученным на известных днях (priceN), которые по времени идут позже, то есть формально запрет на использование информации о будущем теряет смысл. Вопрос: правильно ли я понимаю, что теперь можно обучать алгоритм на известных кусках из test14 для прогноза на test1? Олег Харациди 23:14, 19 декабря 2012 (MSK)
  • Ответ: В случае того, что ты умеешь пользоваться смещенными данными, их можно использовать. Александр Геннадьевич говорил об этом, когда нам выдавали это задание ;) Александр Рыжков 23:26, 19 декабря 2012 (MSK)
  • Информация из будущего «При прогнозе нельзя использовать информацию о будущем» — теперь, видимо, можно? И всю ли информацию о будущем можно использовать? Олег Харациди 20:35, 19 декабря 2012 (MSK)
  • Ответ: Теперь можно все — хардкор продолжается =)) P.S. Мы ей на самом деле и раньше не пользовались из-за прибавления к куску данных случайного числа от 0 до 300… И теперь тоже получается, что мы ей не пользуемся, поскольку тренд равновероятно мог убывать и возрастать в дни test1-test4, да и вообще мог вести себя там как угодно.. Александр Рыжков 20:56, 19 декабря 2012 (MSK)
  • Модели Хольта и Брауна У меня у одного получается так, что при подборе параметров для моделей Хольта или Брауна получается так, что параметр на сглаживание «значений» получается ровно 1 (то есть берётся просто последнее известное значение), а на сглаживание «тренда» близок к 0.5. Из-за этого при прогнозировании почти всегда получается константа, ну или близкое к константе. Андрей Шадриков 10:09, 12 декабря 2012 (MSK)
  • Ответ Теоретически так может быть. На всякий случай напоминаю, что параметры надо настраивать под функционал задачи. Кстати, сейчас как раз идёт обсуждение некоторых изменений в задаче конкурса, которые предотвратят «оптимальные константные решения». Дь-ов 12:35, 12 декабря 2012 (MSK)
  • Отчетность Если третий бенчмарк преодолен, обязательно ли присылать решение на этой неделе? Андрей Никифоров 00:26, 12 декабря 2012 (MSK)
  • Ответ В принципе, нет, хотя вопрос свидетельствует об отсутствии проделанной работы ;) Дь-ов 12:35, 12 декабря 2012 (MSK)
  • Система бенчмарков Я чуток запутался. На преодоление каждого бенчмарка отводится неделя. Но в начале мне показалось, что говорилось про то, что решения принимаются до понедельника, а пересчитываются в пятницу. Я изначально неправильно понял, или я не заметил, когда что-то поменялось? Андрей Шадриков 22:57, 6 декабря 2012 (MSK)
  • Ответ: Собственно ситуация следующая — сейчас мы отправляем свои решения до 23:59 четверга соответственно эту (она уже, к сожалению, истекла) и две следующие недели (14.12.12 и 21.12.12), а после 21.12.12 до 24.12.12 12.00 MSK у нас есть последняя возможность прислать еще что-то более крутое и, скорее всего, отчет (если он не был прислан ранее) Александр Рыжков 00:17, 7 декабря 2012 (MSK)
  • Отчет высылается с последним решением (в смысле на последней неделе). Это я точно помню =) Андрей Шадриков 08:03, 7 декабря 2012 (MSK)
  • Ответ Александр прав. Неделя начинается с пятницы. Каждую пятницу происходит пересчет рейтинга. Первая неделя начиналась с понедельника, а последняя заканчивается в срок, обозначенный как конец соревнования. Отчет присылается, когда участник считает, что больше ничего интересного не придумает… логично, если это будет в конце — с последним решением. Дь-ов 15:45, 9 декабря 2012 (MSK)
  • Оценивание решения Хотелось бы уточнить каким образом вычисляется ошибочность нашего прогноза на test9 и test10? Ошибки на каждом тесте просто суммируются или находится среднее арифметическое ошибок на этих двух тестах (подобный вариант был предложен в файле readme.m)… Заранее спасибо за ответ!!! Александр Рыжков 0043, 29 ноября 2012 (MSK)
  • Ответ: Находится среднее арифметическое. Дь-ов 13:37, 29 ноября 2012 (MSK)
Личные инструменты