Прикладные задачи анализа данных (курс на ВМК 2018 года)
Материал из MachineLearning.
Содержание |
Прикладные задачи анализа данных (курс на ВМК 2018 года)
- Обязательный курс для магистров каф. ММП 1 г/о, читается в 1-м (9-м) семестре.
- Лекции — 36 часов, семинаров - 36 часов.
- Экзамен.
- За курс отвечает кафедра Математических методов прогнозирования.
- Автор программы: профессор А. Г. Дьяконов.
Аннотация
Курс посвящён решению прикладных задач анализа данных. Разбираются реальные задачи и бизнес-кейсы. Студенты пишут и настраивают алгоритмы на языках Python, R, M (Matlab).
Семинары посвящены
- докладам по решению прикладных задач (с презентациями),
- опросам по выполнению домашнего задания,
- обучению программированию на скриптовых языках (для тех, у кого их не было в бакалавриате),
- мозговому штурму по решению задач и обсуждению решений,
- написанию контрольных работ, решению аналитических задач, работе над ошибками.
Система оценивания
В течение семестра студенты получают задания.
При сдаче правильно выполненного задания в срок студент не получает штрафных баллов.
В противном случае - он получает от 1 до 10 штрафных баллов.
Штраф в 10 баллов допустим за позднюю сдачу (даже если решение верное) в случае отсутствия уважительных причин (болезнь, подтверждаемая справкой, и т.п. - см. требования учебной части).
В некоторых случаях (на усмотрение лектора), магистру, который лучше всех выполнил конкретное задание, списываются штрафные баллы (до 10).
На экзамене также за неверные ответы студент получает штрафные баллы.
Итоговая оценка формируется следующим образом:
- до 10 штрафных баллов включительно - отлично,
- до 20 штрафных баллов включительно - хорошо,
- до 30 штрафных баллов включительно - удовлетворительно.
Содержание курса
В этом году все материалы выкладываются здесь: https://github.com/Dyakonov/PZAD.
Сдача ДЗ:
- Необязательное (лекция-1): https://www.kaggle.com/c/pzadbabki/discussion/65863/
- Игра "Что за данные" (к 23.09.2018): https://www.kaggle.com/c/pzadbabki/discussion/66104
- Необязательное (лекция-2): https://www.kaggle.com/c/pzadbabki/discussion/65863 (та же ветка, что и для 1й)
- Визуализация внешних данных (к 30.09.2018): - https://www.kaggle.com/c/pzadbabki/discussion/66107
- Выбираем прикладную задачу https://www.kaggle.com/c/pzadbabki/discussion/66990
- Решаем задачу https://www.kaggle.com/c/ga-customer-revenue-prediction/
Подробности: https://www.kaggle.com/c/pzadbabki/discussion/66990
- Предлагаем задачу для след. соревнования: https://www.kaggle.com/c/pzadbabki/discussion/68699
- Постоянная ветка для сдачи полу-обязательного ДЗ: https://www.kaggle.com/c/pzadbabki/discussion/65863
- Готовимся к к/р по функциям ошибки (22.10 - контрольной не будет!)
22/10/2018
- Решаем задачу на boosters.pro: до след. пары побить "виртуальный бенчмарк" (иначе штраф -5), победителям в каждой задаче +5
- (необязательно): выкладываем материалы для мозгового штурма: https://www.kaggle.com/c/pzadbabki/discussion/68699
- Постоянная ветка для сдачи полу-обязательного ДЗ: https://www.kaggle.com/c/pzadbabki/discussion/65863
- 29.10 будет КР по функциям ошибки
29/10/2018
- По многочисленным просьбам контрольная перенесена
- Продолжаем активно решать задачу на boosters
20/11/2018
- Исследование реальных сетей: https://www.kaggle.com/c/pzadbabki/discussion/72133
13/12/2018
- Решаем задачу https://boosters.pro/champ_21
Подробности: https://www.kaggle.com/c/pzadbabki/discussion/74577
Все вопросы можно задавать в соответствующих ветках форума.
Успеваемость
Комментарий:
- Байтеков - допущен до экзамена с базовой оценкой "удовл"
(можно согласиться на неё, можно улучшить на "хорошо" или "отлично")
Недопущенные на основной экзамен для допуска на пересдачу с базовой оценкой "неуд" должны сдать все долги:
- Бибик: ДЗ*2 + соцсети + соревнование
- Козловцев: ДЗ*3 + соревнование
- Кругликов: ДЗ*2 + визуализация + 2*соревнование
- Сергеев: ДЗ*3 + соцсети
здесь "соцсети" и "визуалиазация" - остаются в постановках, которые были даны в течение семестра
"соревнование" - будет конкретизировано отдельно (это будет новое соревнование)
[обновление 27.01.19] Соревнование https://www.drivendata.org/competitions/56/predict-cleaning-time-series/
- необходимо до экзамена предоставить код
- отчёт по решению
- постановка задачи (так как её поняли Вы, с указанием всех тонкостей, которые не были озвучены организаторами),
- свой финальный метод, его аргументация,
- описание всех сделанных экспериментов,
- что Вы бы ещё сделали / пропробовали, если бы было больше времени
- результаты своих посылок, место в лидерборде (с указанием ника)
"ДЗ" - будет конкретизировано отдельно
[обновление 27.01.19] ДЗ-1 для задолжников: слайд 61 из лекции https://github.com/Dyakonov/PZAD/blob/master/PZAD2018_10_featureengineering_17.pdf
Остальные получают "отлично" автоматом.
Литература
Указана локально - в слайдах / сетке расписания.
История
Программы прошлых лет см. здесь:
- Прикладные задачи анализа данных (курс на ВМК 2018 года)
- Прикладные задачи анализа данных (курс на ВМК 2017 года)
- Прикладные задачи анализа данных (курс на ВМК 2016 года)
- Алгоритмы, модели, алгебры (курс на ВМК 2015 года)
- Алгоритмы, модели, алгебры (курс на ВМК до 2015 года)