Прикладные задачи анализа данных (курс на ВМК 2018 года)

Материал из MachineLearning.

Версия от 08:47, 1 сентября 2019; Dj (Обсуждение | вклад)
(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)
Перейти к: навигация, поиск

Содержание

Прикладные задачи анализа данных (курс на ВМК 2018 года)

  • Обязательный курс для магистров каф. ММП 1 г/о, читается в 1-м (9-м) семестре.
  • Лекции — 36 часов, семинаров - 36 часов.
  • Экзамен.
  • За курс отвечает кафедра Математических методов прогнозирования.
  • Автор программы: профессор А. Г. Дьяконов.



Как будет проходить экзамен:
  • Есть система штрафных баллов, по ней формируется итоговая оценка.
  • Пороги для конкретных оценок (по сумме баллов) объявлены изначально, но могут быть откорректированы лектором в пользу студентов.
  • Сам экзамен проводится письменно - на нём (при желании) можно улучшить итоговую оценку

хорошее написание письменного экзамена увеличивает итоговую оценку на 1 балл (порог будет заранее объявлен), безупречное написание - на 2 балла.

  • Итоговая "отлично" ставится автоматом.
  • Итоговая "неудовлетворительно" также ставится автоматом и означает недопуск к экзамену, чтобы получить допуск надо сдать все несданные задания (итоговая оценка при этом не меняется и может быть исправлена только на самом экзамене). Перечень заданий для допуска определяется персонально с учётом заданий, сданных во время семестра.


Содержание экзамена: задания эквивалентные заданиям со всех контрольных и семинаров (плюс задания по спектральной теории графов, плюс задания на знания теории и определений, если они были на лекциях и продублированы в списке рекомендуемой литературы, плюс задания на знания языков/библиотек, если они обсуждались на семинарах и лекциях)


  • Экзамен проходит по жёсткой схеме: нельзя пользоваться ничем (кроме ручки и листка бумаги). Аналогично контроль сдаваемых заданий после окончания семестра жёсткий: лектор уже не консультирует по самим заданиям, презентации оцениваются по формальным критериям: наличие постановки задачи, описание предложенных методов, их обоснование, подробное изложение экспериментов (с графиками и таблицами), формирование итоговой модели, выводы. Оценивается и сам доклад по задаче!


Аннотация

Курс посвящён решению прикладных задач анализа данных. Разбираются реальные задачи и бизнес-кейсы. Студенты пишут и настраивают алгоритмы на языках Python, R, M (Matlab).

Семинары посвящены

  • докладам по решению прикладных задач (с презентациями),
  • опросам по выполнению домашнего задания,
  • обучению программированию на скриптовых языках (для тех, у кого их не было в бакалавриате),
  • мозговому штурму по решению задач и обсуждению решений,
  • написанию контрольных работ, решению аналитических задач, работе над ошибками.

Система оценивания

В течение семестра студенты получают задания.

При сдаче правильно выполненного задания в срок студент не получает штрафных баллов.

В противном случае - он получает от 1 до 10 штрафных баллов.

Штраф в 10 баллов допустим за позднюю сдачу (даже если решение верное) в случае отсутствия уважительных причин (болезнь, подтверждаемая справкой, и т.п. - см. требования учебной части).

В некоторых случаях (на усмотрение лектора), магистру, который лучше всех выполнил конкретное задание, списываются штрафные баллы (до 10).

На экзамене также за неверные ответы студент получает штрафные баллы.


Итоговая оценка формируется следующим образом:

  • до 10 штрафных баллов включительно - отлично,
  • до 20 штрафных баллов включительно - хорошо,
  • до 30 штрафных баллов включительно - удовлетворительно.

Содержание курса

В этом году все материалы выкладываются здесь: https://github.com/Dyakonov/PZAD.

Сдача ДЗ:

Подробности: https://www.kaggle.com/c/pzadbabki/discussion/66990

22/10/2018

  • Решаем задачу на boosters.pro: до след. пары побить "виртуальный бенчмарк" (иначе штраф -5), победителям в каждой задаче +5
  • (необязательно): выкладываем материалы для мозгового штурма: https://www.kaggle.com/c/pzadbabki/discussion/68699
  • Постоянная ветка для сдачи полу-обязательного ДЗ: https://www.kaggle.com/c/pzadbabki/discussion/65863
  • 29.10 будет КР по функциям ошибки

29/10/2018

  • По многочисленным просьбам контрольная перенесена
  • Продолжаем активно решать задачу на boosters

20/11/2018

13/12/2018

Подробности: https://www.kaggle.com/c/pzadbabki/discussion/74577


Все вопросы можно задавать в соответствующих ветках форума.

Успеваемость

Изображение:r20181023.png


Комментарий:

  • Байтеков - допущен до экзамена с базовой оценкой "удовл"

(можно согласиться на неё, можно улучшить на "хорошо" или "отлично")

Недопущенные на основной экзамен для допуска на пересдачу с базовой оценкой "неуд" должны сдать все долги:

  • Бибик: ДЗ*2 + соцсети + соревнование
  • Козловцев: ДЗ*3 + соревнование
  • Кругликов: ДЗ*2 + визуализация + 2*соревнование
  • Сергеев: ДЗ*3 + соцсети

здесь "соцсети" и "визуалиазация" - остаются в постановках, которые были даны в течение семестра

"соревнование" - будет конкретизировано отдельно (это будет новое соревнование)

[обновление 27.01.19] Соревнование https://www.drivendata.org/competitions/56/predict-cleaning-time-series/

  • необходимо до экзамена предоставить код
  • отчёт по решению
    • постановка задачи (так как её поняли Вы, с указанием всех тонкостей, которые не были озвучены организаторами),
    • свой финальный метод, его аргументация,
    • описание всех сделанных экспериментов,
    • что Вы бы ещё сделали / пропробовали, если бы было больше времени
    • результаты своих посылок, место в лидерборде (с указанием ника)

"ДЗ" - будет конкретизировано отдельно

[обновление 27.01.19] ДЗ-1 для задолжников: слайд 61 из лекции https://github.com/Dyakonov/PZAD/blob/master/PZAD2018_10_featureengineering_17.pdf


Остальные получают "отлично" автоматом.

Литература

Указана локально - в слайдах / сетке расписания.

История

Программы прошлых лет см. здесь:

Личные инструменты