Спецкурс «Прикладные задачи анализа данных»

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Лекции)
(Лекции)
Строка 80: Строка 80:
'''Домашнее задание №1''': ещё неделя на решение, потом неделя на отчёты.
'''Домашнее задание №1''': ещё неделя на решение, потом неделя на отчёты.
-
материалы:
+
'''Материалы''':
# Книга [http://www.ozon.ru/context/detail/id/4526400/ Шурыгин А.М. Математические методы прогнозирования // М., Горячая линия — Телеком, 2009, 180 с.] * Неплохие идеи для решения некоторых практических задач статистики (но в целом, специфична)
# Книга [http://www.ozon.ru/context/detail/id/4526400/ Шурыгин А.М. Математические методы прогнозирования // М., Горячая линия — Телеком, 2009, 180 с.] * Неплохие идеи для решения некоторых практических задач статистики (но в целом, специфична)
# Статья [http://bijournal.hse.ru/2014--1%20%2827%29/120486363.html  Дьяконов А.Г. Прогноз поведения клиентов супермаркетов с помощью весовых схем оценок вероятностей и плотностей // Бизнес-информатика. 2014. № 1 (27). С. 68–77.].
# Статья [http://bijournal.hse.ru/2014--1%20%2827%29/120486363.html  Дьяконов А.Г. Прогноз поведения клиентов супермаркетов с помощью весовых схем оценок вероятностей и плотностей // Бизнес-информатика. 2014. № 1 (27). С. 68–77.].

Версия 20:18, 26 сентября 2015

В настоящее время курс читается,

как отбирались участники - читайте ниже, в "ранее доводимой информации", см. также результаты отбора.

Аспиранты, которые ранее вписали курс в учебный план, также обязаны зарегистрироваться. Кроме того, аспиранты, которые не проходили отбор, получат дополнительное задание.

Вся остальная информация - в почтовых рассылках зарегистрированным участникам. Общие вопросы можно задавать в комментариях к посту.

Сделана рассылка №0 всем зарегистрированным участникам.

Сделана рассылка №1 всем зарегистрированным участникам (указана аудитория и время начала).

Сделана рассылка лекций 16.09.


Содержание

Аннотация

Данный курс был победителем конкурса инновационных учебных технологий.


Лектор: Дьяконов Александр

Основная цель: практика решения современных задач классификации, прогнозирования, регрессии, рекомендации и т.п., подготовка участников к соревнованиям на платформах Kaggle и Algomost.

Мероприятие проходит в двух режимах:

  • спецкурса – лекции о решении прикладных задач, обучение некоторым системам анализа данных (например R, Matlab, Python+ и т.п.
  • спецсеминара – обсуждение решаемых задач, выработка общих стратегий, разделение работы в рамках участия в соревновании одной командой, мозговой штурм и т.п.

Важно: от участников потребуется выполнение нетривиальных практических заданий!

Выпускники ПЗАДа, известные в спортивном анализе данных

2013 2014 2015
Трофимов Михаил
Рыжков Александр
Софиюк Константин
Фонарев Александр
Харациди Олег
Гущин Александр
Семёнов Станислав
Фенстер Александра
Ульянов Дмитрий
Сиверский Михаил
Шапулин Андрей
Нижибицкий Евгений
Остапец Андрей
это место вакантно

Правила

  • Рассылки материалов делаются только зарегистрированным слушателям курса (перечислены в таблице слушателей).
  • Слушатели, которые перестают делать домашние задания, удаляются из таблицы.
  • За каждое задание можно было получить от 0 до 10 штрафных баллов. 10 штрафных баллов понижают итоговую оценку на один балл.
  • Для аспирантов и студентов ВМК: важно вовремя делать задания (опоздания штрафуются); экзамена, как такового, не будет; штрафы могут быть исправлены только качественным выполнением последующих заданий

Таблица появится после завершения регистрации

Лекции

Здесь будет выложена программа нового (2015 года) - по мере чтения курса.

Старые программы см. на страницах прошлых лет.

Число Лекция Материалы, замечания
16.09.14 Вводное занятие: цели курса, материалы, правила, участие в соревнованиях.

Разбор конкурсных задач: решение задачи [Search Results Relevance] (классическая и неклассическая задачи поиска, сравнение блоков информации, 3-граммы, настройка случайного леса, деформация ответов и решающие правила, выравнивание распределений ответов).

Домашнее задание №1: решение задачи [MSUvisits] (прогноз дня недели следующего визита клиента).

слайды в рассылке
23.09.14 Оценка среднего, оценка вероятности, оценка плотности. Весовые схемы.: проблема оценки среднего, выбросы, разные целевые функционалы, оценка минимального контраста, среднее по Колмогорову, SMAPE-минимизация, двухэтапные алгоритмы и их настройка, пересчёт вероятности и прямая оценка, введение весовых схем, устойчивость весовых схем, ансамблирование, непараметрическое восстановление плотности, весовые схемы при оценке плотности. Задача [dunnhumby's Shopper Challenge]. Задача [пробки].

Домашнее задание №1: ещё неделя на решение, потом неделя на отчёты.

Материалы:

  1. Книга Шурыгин А.М. Математические методы прогнозирования // М., Горячая линия — Телеком, 2009, 180 с. * Неплохие идеи для решения некоторых практических задач статистики (но в целом, специфична)
  2. Статья  Дьяконов А.Г. Прогноз поведения клиентов супермаркетов с помощью весовых схем оценок вероятностей и плотностей // Бизнес-информатика. 2014. № 1 (27). С. 68–77..
  3. Видео Оценка вероятности: когда к нам придёт клиент?
слайды в рассылке

Отчётность

  • отчёты по решению конкурсных задач (доклады с презентацией + исходники)
  • зачёт с оценкой в конце семестра

Страницы курсов прошлых лет

Спецкурс «Прикладные задачи анализа данных» (2013 год)

Спецкурс «Прикладные задачи анализа данных» (2014 год)

Ссылки

  1. Книга Jure Leskovec, Anand Rajaraman, Jeff Ullman Mining of Massive Datasets * Неплохая книга на английском языке с обзором основных задач и методов в анализе данных (уровень сложности - средний).
  2. Книга Beautiful Visualization: Looking at Data through the Eyes of Experts (Theory in Practice) по визуализации данных
  3. Книга Шурыгин А.М. Математические методы прогнозирования * Неплохие идеи для решения некоторых практических задач статистики (но в целом, специфична)
  4. Статья Прогноз поведения клиентов супермаркетов с помощью весовых схем оценок вероятностей и плотностей.
  5. Книга Ту Дж., Гонсалес Р. Принципы распознавания образов * Уже чуть устаревшая книга. Но полистать стоит! Первая «энциклопедия по методам классификации».
  6. Прогнозирование рядов соревнования «Tourism Forecasting Part Two» (414Кб) * Подробное описание некоторых простых алгоритмов для прогнозирования туристических временных рядов.
  7. Статья A Blending of Simple Algorithms for Topical Classification * Описание метода классификации текстов. Содержание рассказывалось на лекции.
  8. Книга К.Д. Маннинг, П. Рагхаван, Х. Шютце «Введение в информационный поиск» * Простая, но хорошая книга по основам работы с текстом (прочитать обязательно).
  9. Статья Алгоритмы для рекомендательной системы: технология LENCOR.
  10. Книга Научно-популярная лекция «Введение в анализ данных» (PDF, 1.4 Мб) * Вводная лекция, которая написана для просеминара.
  11. Анализ данных, обучение по прецедентам, логические игры, системы WEKA, RapidMiner и MatLab (практикум на ЭВМ кафедры математических методов прогнозирования) * Глава 12 «Шаманство в анализе данных».
  12. Научно-популярная лекция «Шаманство в анализе данных» (1.21Мб) * Переработка предыдущего источника в научно-популярную лекцию.
  13. Научно-популярная лекция «Чему не учат в анализе данных и машинном обучении» * Рассказываются тонкости решения задач, которые умалчиваются в основных курсах.

Аналогичные курсы

  1. Data Science * Аналогичный (по духу) гарвардский курс
  2. Страница спецсеминара «Алгебра над алгоритмами и эвристический поиск закономерностей» * Приведены ссылки на сайты с данными реальных задач анализа данных.

Ещё ссылки

Неплохая короткая демка про соревнования в анализе данных, платформы для соревнований и возможности системы R.

РАНЕЕ ДОВОДИМАЯ ИНФОРМАЦИЯ

В сентябре 2015 года будет объявлен новый набор слушателей спецкурса.

Поскольку обычно желающих очень много, а работа на спецкурсе подразумевает сильную вовлечённость студентов и небольшое число слушателей, то будет произведён отбор.

Для участия в отборе необходимо:

  • освоить (если его не было в учебной программе) курс Машинное обучение,
  • выступить хотя бы в одном соревновании по анализу данных (см. ниже),
  • пройти анкетирование (или собеседование в сентябре).

Список допустимых соревнований:


Результат будет учитываться при отборе. Участие в соревновании не гарантирует отбор! Важно: участие в соревновании должно быть индивидуальное (в команде 1 человек), называйте команду по образцу: "Team Name (I want to PZAD)".

Как всегда: программа нового года будет слегка отличаться от предыдущих (добавлены новые темы, улучшено содержание).

Курс открыт для всех желающих, но при их большом количестве студенты/аспиранты ВМК МГУ пользуются преимуществом.

Вопросы можно задавать в комментариях к этому посту.

Засчитанные ники соревнования Search Results Relevance

  • 39rus (I want to PZAD) - отличный результат
  • Evgeny Nekrasov (I want to PZAD) - отличный результат
  • Artem (I want to PZAD) - отличный результат
  • Evgeny Eltyshev (I want to PZAD)
  • Denis Tsitko (I want to PZAD)
  • anketer (I want to PZAD)
  • Andrey Akhmetov (I want to PZAD)
  • cheerupdude (I want to PZAD)
  • kvas7andy (I want to PZAD) - формальное участие
  • Johny Cheescutter (I want to PZAD) - низкий результат
  • Nonary Rustam( I want to PZAD) - формальное участие
  • Pavel Blinov (I want to PZAD)
  • Georgy Ivanov (I want to PZAD)
  • HeBo (I want to PZAD)
  • Igor Subbotin (I want to PZAD)
  • Pasha Podolsky (I want to PZAD)
  • Maxim Kharchenko (I want to PZAD)
  • golovan (I want to PZAD) - слабая активность


Засчитанные ники соревнования Liberty Mutual Group: Property Inspection Prediction

Очень высокий результат:

  • Iskander (I want to PZAD)
  • Vladimir Nikolaev (I want to PZAD)
  • VA (I want to PZAD)

Остальные результаты коррелируют с бенчмарками или хуже

  • Ilya Aleshin(I Want to PZAD)
  • dioexul (I want to PZAD)
  • kvas7andy (I want to PZAD) формальное участие
  • antklen (I want to PZAD)
  • Янина Анастасия (I want to PZAD) формальное участие
  • Denis Tsitko (I want to PZAD)
  • Evgeny Nekrasov (I want to PZAD)
  • Tilga Sergey (I want to PZAD)
  • Igor Subbotin (I want to PZAD)
  • Антон Панкратов (I want to PZAD)
  • Kirill Lunev (I want to PZAD)
  • Aleksey Pogrebnyak (I want to PZAD)
  • WHGP (I want to PZAD)
  • Evgeny Eltyshev (I want to PZAD)
  • Btbpanda (I want to PZAD)
  • dsmolyakov (I want to PZAD)
  • Roman K (I want to PZAD) большая активность - 103
  • Grigory Dymov (I want to PZAD)
  • 39rus (I want to PZAD)
  • Evgeny (I want to PZAD)
  • Tazhoo Deen (I want to PZAD)
  • Roman Khalkechev (I want to PZAD) формальное участие
  • Mark Winogradov (I want to PZAD) формальное участие
  • Taygrim(I want to PZAD) формальное участие

Засчитанные ники соревнования Caterpillar Tube Pricing

  • Kaffo (I want to PZAD) высокий результат
  • Sergey Tilga (I want to PZAD) высокий результат
  • Nikolay Mayorov (I want to PZAD) высокий результат
  • Andrey Akhmetov (I want to PZAD) высокий результат
  • Vladimir (I want to PZAD) высокий результат
  • Evgeny Eltyshev (I want to PZAD)
  • Denis Tsitko (I want to PZAD)
  • persiyanov (I want to PZAD)
  • denny_sem[I want to PZAD]
  • WHGP (I want to PZAD) формальное участие
  • Антон Панкратов (I want to PZAD)
  • dioexul (I want to PZAD)
  • Янина Анастасия (I want to PZAD) формальное участие
  • cheerupdude (I want to PZAD)
  • grapefroot(I want to PZAD) формальное участие
  • Maxim Kharchenko (I want to PZAD)
  • Tazhoo Deen (I want to PZAD)
  • Julia Gusak (I want to PZAD)
  • mondgottin (I want to PZAD) формальное участие
  • golovan (I want to PZAD)
  • Roman Khalkechev (I want to PZAD) формальное участие
  • kittens_gonna_kitt (I want to PZAD) формальное участие
Личные инструменты