Алгоритмы, модели, алгебры (курс на ВМК 2015 года)
Материал из MachineLearning.
Содержание |
АЛГОРИТМЫ, МОДЕЛИ, АЛГЕБРЫ - курс 2015 года - (название условное, курс посвящён анализу данных)
- Обязательный курс для магистров каф. ММП 1 г/о, читается в 1-м (9-м) семестре.
- Лекции — 32 часа, семинаров - 32 часа.
- Экзамен.
- За курс отвечает кафедра Математических методов прогнозирования.
- Автор программы: профессор А. Г. Дьяконов.
Для тех, кто пока имеет по курсу "неуд":
Первая пересдача (всего их две) назначена на 8 февраля (дата ещё уточняется). К этой дате необходимо ликвидировать все задолжности за семестр (в противном случае ставится оценка "неуд"). Как минимум, за два для до пересдачи по каждому заданию выложить свой код и отчёт (чем раньше, тем лучше). Места для выкладки - см. ниже. Это позволит проверить Ваши отчёты заранее и побудить Вас внести исправления. В противном случае - у Вас не останется времени на исправления. Напоминаю, что все задания оцениваются строго. Например, отсутствие нужных графиков или таблиц может считаться невыполнением задания, нарушение общих правил курса (название команд на Kaggle и т.п.) может считаться невыполнением задания, неубедительное выступление с презентацией может считаться невыполнением задания. Список задолжностей
SK - задание по библиотеке scikit-learn от 05.11 (остаётся в той постановке, что и было). Обратите внимание, что задание предусматривает доклад с презентацией (будет до пересдачи). Ветка для выкладки презентации по SK. PIC - задание по визуализации от 24.09 (остаётся в той же постановке, что и было). Обратите внимание, что задание предусматривает доклад с презентацией (будет до пересдачи). Ветка для выкладки презентации по PIC. VZ - новое задание про предсказание поведения покупателей. В ветке форума описаны требования. Обратите внимание, что задание предусматривает преодоление бенчмарка (на скрытой выборке). ROS - соревнование Winton. Необходимо преодолеть на скрытой выборке победить бенчмарк из одних нулей. Ветка для выкладки отчётов: наш общий форум. Спешите зарегистрироваться - до конца соревнования 15 дней, за 7 регистрация прекращается. Поправка 09/02/2016: после окончания соревнования, если вы не успели поучаствовать, скачайте данные (сабмишиные ещё можно сделать), выложите вместе со своим отчётом своё решение (файл для отправки на Кэгл). Обо всех трудностях пишите в форуме. WL+ED - конкурс CardioQVARK (выложено 25.01.2016). За два задания засчитывается этот не очень трививальный конкурс. Необходимо написать функции считывания всей признаковой информации, которая есть в файлах, функции обработки сигналов и извлечения дополнительных признаков. На локальном (!) скользящем контроле необходимо превзойти порог 0.6 по F-мере и запостить решение на тесте(с нужным ником). Ветка для выкладки отчётов и кода: наш общий форум. Рекомендуемый материал для повышения качества: презентация Воронцова.
Все вопросы, связанные с АМА должны быть заданы в этой ветке. Напоминаю, что сдача всех задолжностей означает допуск к сдаче экзамена с базовой оценкой "неуд". Критерии её повышения до положительной см. в форуме. 11/01/2016 |
Напоминаю, о наших договорённостях:
Содержание экзамена: задания эквивалентные заданиям со всех контрольных и семинаров (плюс задания по спектральной теории графов, плюс задания на знания теории и определений, если они были на лекциях и продублированы в списке рекомендуемой литературы, плюс задания на знания языков/библиотек, если они обсуждались на семинарах и лекциях) Исправление: хорошее написание письменного экзамена увеличивает итоговую оценку на 1 балл (порог будет заранее объявлен), безупречное написание - на 2 балла.
Все вопросы, связанные с АМА должны быть заданы в этой ветке.
Внимание! Посмотрите на странице АМА - не ошибся ли я с итоговыми баллами... "Отлично" автоматом получают:
Допуск на экзамен имеют:
Допуск на экзамен не имеют - "неуд. автоматом":
В скобках обозначены долги - задания, которые необходимо сделать для допуска к экзамену. SK - задание по библиотеке scikit-learn от 05.11 (остаётся в той постановке, что и было). PIC - задание по визуализации от 24.09 (остаётся в той же постановке, что и было). 10го числа можно будет сдать эти задания. Остальные будут переформулированы после 10го числа (использование прежних формулировок невозможно, по причине окончания соответствующих соревнований). 27/12/2015 |
Аннотация
Курс посвящён решению прикладных задач анализа данных. Разбираются реальные задачи и бизнес-кейсы. Студенты пишут и настраивают алгоритмы на языках Python, R, M(Matlab).
Семинары посвящены
- докладам по решению прикладных задач (с презентациями),
- опросам по выполнению домашнего задания,
- обучению программированию на скриптовых языках (для тех, у кого их не было в бакалавриате),
- мозговому штурму по решению задач и обсуждению решений,
- написанию контрольных работ, решению аналитических задач, работе над ошибками.
Система оценивания
В течение семестра студенты получают задания.
При сдаче правильно выполненного задания в срок студент не получает штрафных баллов.
В противном случае - он получает от 1 до 10 штрафных баллов.
Штраф в 10 баллов допустим за позднюю сдачу (даже если решение верное) в случае отсутствия уважительных причин (болезнь, подтверждаемая справкой, и т.п. - см. требования учебной части).
В некоторых случаях (на усмотрение лектора), магистру, который лучше всех выполнил конкретное задание, списываются штрафные баллы (до 10).
На экзамене также за неверные ответы студент получает штрафные баллы.
Итоговая оценка формируется следующим образом:
- до 10 штрафных баллов включительно - отлично,
- до 20 штрафных баллов включительно - хорошо,
- до 30 штрафных баллов включительно - удовлетворительно.
Содержание курса
Наполняется по мере необходимости.
Число | Занятие | Тема | Замечания |
---|---|---|---|
03.09.15 | лекция | Вводное занятие: цели курса, материалы, правила, участие в соревнованиях. | |
03.09.15 | семинар | Тест на знание основ машинного обучения. | |
03.09.15 | дз | Регистрация на платформе kaggle.com (каждый участник в четверг должен иметь действующий логин), регистрация на данном ресурсе (по возможности), исследование платформы kaggle (уметь назвать несколько задач с платформы, их постановку, функционал качества, методы, которые использовали участники). | |
10.09.15 | лекция | Оценка среднего и вероятности
материалы:
| |
10.09.15 | лекция | ||
10.09.15 | дз | Первое домашнее задание:
Решение задачи [MSUvisits]. Срок - до 23 сентября 2015 23:59 (с выкладкой отчёта в [этой ветке форума]). Все вопросы задаются в [форуме]. Поощряется активность: выкладывание скриптов общего назначения (загрузка данных, перевод в нужный формат), бенчмарков (примитивные алгоритмы), ответы на вопросы в форуме. до 16 сентября 2015 23:59 - преодолеть порог 0.23753 в [Public Liderboard]. Напоминание: команды называть по шаблону Ivan Ivanov (MMP, MSU, Russia). | max штраф за задание -10.
Но дополнительно, за непреодоление бенчмарка -5. |
17.09.15 | лекция | Система для анализа данных Matlab
материалы: | |
17.09.15 | лекция | Быть в будущем готовым к контрольной | |
17.09.15 | дз | Быть в будущем готовым к контрольной | |
24.09.15 | лекция | Визуализация данных
материалы: | |
24.09.15 | семинар | Разбор решений задачи [MSUvisits] | |
24.09.15 | дз | Обеспечить себе результат выше лучшего бенчмарка [MSUvisits] до 01.10.2015 (иначе - штраф -5).
Второе домашнее задание: 1. Выбрать активную задачу на kaggle.com в разделе Public Datasets (фиолетовый раздел). Будьте внимательны: смотрите на данные. 2. Сделать визуализацию по этой задаче (по каждой уже есть какие-то визуализации - см. раздел "Скрипты"). 3. Оформить её в виде скрипта на сайте (предпочтительно) или в виде отдельного pdf-отчёта. 4. В любом случае - сделать по своей работе презентацию. 5. Что будет оцениваться (точнее, не штрафоваться)
Срок - до 14.10.2015 23:59. Ограничения: Одну задачу не должны выбрать более 6 человек (оставляю это требование на контроль группы). Максимальный штраф: -10. | |
01.10.15 | лекция | Функционалы качества и ошибки
материалы:
| |
01.10.15 | семинар (45мин) | по материалам лекции - минимизация функций ошибки, вычисление AUC ROC | |
01.10.15 | дз | Подготовка к контрольной работе | |
08.10.15 | лекция | продолжение Функционалы качества и ошибки | |
08.10.15 | семинар | по материалам лекции, контрольная работа по теме Функционалы качества и ошибки (максимальный штраф: -10 - исправляемый!) | |
08.10.15 | дз | ||
15.10.15 | лекция | Представление нового задания: Rossmann Store Sales , обзор подходов к его решению на R.
материалы:
Срок - до 28.10.2015 23:59. Напоминание: команды называть по шаблону Ivan Ivanov (MMP, MSU, Russia). | |
15.10.15 | семинар | Защита своих визуализаций (см. Второе домашнее задание.) | |
15.10.15 | дз |
Третье домашнее задание: 1. Попробовать по крайней мере 3 различных алгоритма машинного обучения и по крайней мере 3 различных признаковых пространства в задаче Rossmann Store Sales (т.е минимум должно быть использовано 3 различных алгоритма машинного обучения, если они обучаются на разных признаках). Ограничения по языку программирования нет, можно использовать любой. Качество работы алгоритмов нужно проверять на локальном контроле. 2. Сделать хотя бы 3 посылки по этой задаче на сайте kaggle.com и посмотреть как соотносятся результаты локального контроля и Public Leaderboard. 3. Прислать отчет о проделанной работе на почту aostapec@mail.ru 4. Что должно быть в отчете:
| |
22.10.15 | лекция | Подходы к решению Rossmann Store Sales + минимизация функционалов
материалы: | |
22.10.15 | семинар | Разбор последней контрольной работы + защита своих визуализаций (продолжение) | |
22.10.15 | дз | ||
29.10.15 | лекция | Линейные модели алгоритмов
материалы:
| |
29.10.15 | семинар | Введение в Pandas (для желающих) | |
29.10.15 | дз | ||
05.11.15 | лекция | Линейные модели алгоритмов (продолжение), Анализ текстов
материалы: | |
05.11.15 | семинар | Введение в Pandas (окончание), минимизация функционалов | |
05.11.15 | дз | Домашнее задание: Постановка, ветка форума, SCIKIT-LEARN. | штраф: -10, срок: 2 недели
|
12.11.15 | лекция | Анализ текстов (продолжение), Случайные леса.
материалы:
| |
12.11.15 | семинар | Введение в sklearn (для желающих) | |
12.11.15 | дз |
| |
19.11.15 | лекция | Случайные леса (продолжение) | |
19.11.15 | семинар | Защита презентаций по scikit-learn | |
19.11.15 | дз | Новое домашнее задание - участие в соревновании Walmart Recruiting: Trip Type Classification.
Предварительная цель - превзойти результат 0.90. Первый дедлайн - 2 декабря. Штраф: -10 |
|
26.11.15 | лекция | Категориальные признаки
материалы:
| |
26.11.15 | семинар | Защита презентаций по scikit-learn (продолжение) | |
26.11.15 | дз | ||
03.12.15 | лекция | k ближайших соседей, настройка комбинаций алгоритмов
Пост-троечные последовательности материалы:
Теория нечётких множеств материалы:
| |
03.12.15 | семинар | Задачи по нечётким множествам | |
03.12.15 | дз | Подготовиться к контрольной по нечётким множествам | |
10.12.15 | лекция | Исследование социальных сетей
материалы:
| |
10.12.15 | семинар | Контрольная работа по теории нечётких множеств | |
10.12.15 | дз | Домашнее задание: соревнование "Прогнозирование появление рёбер в графе соцсети".
За неделю необходимо преодолеть бенчмарк "Решение за 5 минут". Штраф -5. В этой ветке до 23го декабря 23:59 надо опубликовать pdf-отчёт и код. В отчёте перечислить методы, которые были использованы (и причины их использования), результаты тестов на локальном контроле и на лидерборде. Штраы -10. Чуть позже будет определён итоговый порог для преодоления. | |
17.12.15 | лекция | Исследование социальных сетей (продолжение)
Спектральная теория графов (сколько успеем) материалы:
| |
17.12.15 | семинар | ||
17.12.15 | дз | дано выше |
Успеваемость
№ п/п | Студент | тест 03.09 | визиты 23.09 | преодоление бенчмарка 01.10 | семинары 01.10 | выбор визуализации ранняя сдача | ф-ии ошибки кр 08.10 | визуализация защита 15.10 | Rossmann 22.10 | scikit 19.10 | Walmart 03.12 | нечёткие мн-ва 10.12 | рёбра 17.12 | ИТОГ |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
1 | Апишев Мурат Азаматович | 0 | 0 + 0 (доклад) | -5 | +5 | -3 | 0 (доклад) + 5 (лучший) | 0 + 5 (первый) | 0 (доклад) | 0 | -8 | 0+0 | -1 [отлично] | |
2 | Гой Антон Сергеевич | 0 | +3 (загрузка) + 0 (доклад) | 0 | +5 | -5 | 0 (доклад) + 5 (лучший) | 0 + 10 (лучший) | 0 (доклад) + 10 (лучший) | 0 | -10 Н | 0-10 | +8 [отлично] | |
3 | Готман Мария Леонидовна | 0 | +3 (форум) + 0 (доклад) | -5 | -3 | 0 (доклад) | -4 (дедлайн) | + | 0 | -8 | 0+0 | -17 [>="4"] | ||
4 | Гурьянов Алексей Константинович | 0 | -5 -2 | 0 | +1 | 0+10 | 0 | -2 (дедлайн+зам) | + (доклад) | +10 (лучший) | -2 | 0-10 | +0 [отлично] | |
5 | Жосан Юлия Сергеевна | 0 | -1 -1 | 0 | -7 | 0 (доклад) | 0 | -10 | 0 | -9 | 0-? | <=-28 [?] | ||
6 | Кибитова Валерия Николаевна | 0 | 0 -2 | 0 | -6 | 0 | 0 + 10 (лучшая) | + (доклад) | +10 (лучшая) | -9 | 0+0 | +3 [отлично] | ||
7 | Козлов Владимир Дмитриевич | 0 | -1 + 0 | -5 | -3 | 0 (доклад) | -10 | -10 ? | -10? | -2 | -5-10 | -56 | ||
8 | Кузенко Татьяна Вячеславовна | - 0 | -5 -10 | -5 | -9 | -10 | -10 | -10 | -10 | -9 | -5-10 | -93 | ||
9 | Лукашкина Юлия Николаевна | 0 | 0 + 0 | -5 | +5 | -7 | 0 (доклад) + 5 (лучший) | 0 | + (доклад) | 0 | -8 | 0+0+10(первое место)+5(форум) | +5 [отлично] | |
10 | Ожерельев Илья Сергеевич | 0 | 0 + 0 (доклад) | -5 | +1 | -6 | -10 | -10 | -10 | -10 | -10 н | -5-10 | -75 | |
11 | Сендерович Никита Леонидович | +10 | +5 (выступление) | 0 | +2 | -3 | 0 (доклад) + 5 (лучший) | -10 | -3 (дедлайн, доклад) | 0 | +10 | 0-3(дедлайн)+10(первое место) | +23 [отлично] | |
12 | Скробот Дмитрий Владиславович | - 0 | -5 -10 | -5 | -10 | -10 | -10 | -10 | -10 | -10 н | -5-10 | -95 | ||
13 | Темирчев Павел Георгиевич | 0 | -5 -3 (доклад) | -5 | +2+2+5 | -7 | -10 | -10 | -1 (дедлайн) | 0 | -5 | 0-3(дедлайн)+5(форум) | -35 | |
14 | Федосов Виктор Николаевич | 0 | -5 -10 | -5 | -10 | -10 | -10 | -10 | -10 | -10 | -5-10 | -95 | ||
15 | Хомутов Никита Юрьевич | - 0 | -5 -10 | -5 | -7 | -10 | -10 | -10 | -10 | -3 | 0-10+5(форум) | -75 | ||
16 | Шапулин Андрей Валентинович | - 0 | 0 + 0 (доклад) | 0 | -6 | 0 (доклад) + 5 (лучший) | 0 | 0 (доклад) | 0 | -7 | 0+0+5(форум)-5(бенчмарк) | -8 [отлично] |
Литература
Указана локально - в сетке расписания.
История
Программы прошлых лет см. здесь:
- Алгоритмы, модели, алгебры (курс на ВМК 2015 года)
- Алгоритмы, модели, алгебры (курс на ВМК до 2015 года)