Алгоритмы, модели, алгебры (курс лекций, Ю.И. Журавлев, А.Г. Дьяконов)
Материал из MachineLearning.
(→Содержание курса) |
(→Содержание курса) |
||
(10 промежуточных версий не показаны.) | |||
Строка 207: | Строка 207: | ||
| 12.10.17 | | 12.10.17 | ||
| дз | | дз | ||
- | | До следующего занятия в [https://www.kaggle.com/c/pzadbabki/discussion/41212 ветке форума] выложить найденные закономерности в задаче скоринга. | + | | До следующего занятия в [https://www.kaggle.com/c/pzadbabki/discussion/41212 ветке форума] выложить найденные закономерности в задаче скоринга (штраф: -5). |
| | | | ||
Строка 239: | Строка 239: | ||
2. Решать задачу скоринга | 2. Решать задачу скоринга | ||
+ | * -10 - непреодоление бенчмарка | ||
+ | * +10 - за см. [https://www.kaggle.com/c/pzadbabki/discussion/41573 ветку обмена кодом] | ||
- | + | Файлы сабмитов в задаче скоринга начинать с 'msu_' | |
- | + | ||
- | + | ||
Строка 249: | Строка 249: | ||
| | | | ||
+ | |||
+ | |||
+ | |||
+ | |- | ||
+ | | 26.10.17 | ||
+ | | лекция | ||
+ | | '''Случайные леса''' | ||
+ | |||
+ | материалы: | ||
+ | * А. Liaw, M. Wiener [http://www.bios.unc.edu/~dzeng/BIOS740/randomforest.pdf Classification and Regression by randomForest] // R News (2002) Vol. 2/3 p. 18. | ||
+ | * И. Генрихов [http://jmlda.org/papers/doc/2014/no8/Genrikhov2014Criteria.pdf О критериях ветвления, используемых при синтезе решающих деревьев] // Машинное обучение и анализ данных, 2014, Т.1, №8, С.988-1017 | ||
+ | * A. Natekin, A. Knoll [http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3885826/ Gradient boosting machines, a tutorial] // Front Neurorobot. 2013; 7: 21. | ||
+ | | [[Медиа:PZAD2016_09_rf.pdf|презентация (pdf)]] *OLD* | ||
+ | |||
+ | |- | ||
+ | | 26.10.17 | ||
+ | | лекция | ||
+ | | '''Случайные леса''' | ||
+ | | | ||
+ | |||
+ | |- | ||
+ | | 26.10.17 | ||
+ | | д/з | ||
+ | | Продолжаем решать задачу скоринга. Штраф -10 за непреодоление нового бенчмарка 0.697481. | ||
+ | | | ||
+ | |||
+ | |||
+ | |||
+ | |- | ||
+ | | 02.11.17 | ||
+ | | лекция | ||
+ | | '''Градиентный бустинг''' | ||
+ | |||
+ | материалы: | ||
+ | * A. Natekin, A. Knoll [http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3885826/ Gradient boosting machines, a tutorial] // Front Neurorobot. 2013; 7: 21. | ||
+ | * García, Salvador, Luengo, Julián, Herrera, Francisco Data Preprocessing in Data Mining // Springer , 2015. 320 p. DOI 10.1007/978-3-319-10247-4 | ||
+ | | [[Медиа:PZAD2017_06_gradboosting.pdf|презентация (pdf)]] | ||
+ | |||
+ | |- | ||
+ | | 02.11.17 | ||
+ | | лекция | ||
+ | | '''Предобработка данных''', '''Генерация признаков''' | ||
+ | | [[Медиа:PZAD2017_07_datapreprocessing.pdf|презентация (pdf)]] , [[Медиа:PZAD2017_08_featureengenearing.pdf|презентация (pdf)]] | ||
+ | |||
+ | |- | ||
+ | | 02.11.17 | ||
+ | | д/з | ||
+ | | Начинаем решать задачу на платформе ... [https://www.boosters.pro/champ_10 Boosters] (почему-то открывается только через VPN) До след. пары сделать нетривиальный сабмит. | ||
+ | | | ||
+ | |||
+ | |||
+ | |- | ||
+ | | 09.11.17 | ||
+ | | лекция | ||
+ | | '''Отбор признаков''' | ||
+ | |||
+ | материалы: | ||
+ | |||
+ | * Jundong Li, Kewei Cheng, Suhang Wang, Fred Morstatter, Robert P. Trevino, Jiliang Tang, Huan Liu [https://arxiv.org/abs/1601.07996 Feature Selection: A Data Perspective] | ||
+ | * Sean Luke [https://cs.gmu.edu/~sean/book/metaheuristics/ Essentials of Metaheuristics]. — Lulu, 2009. — 235 p. | ||
+ | |||
+ | | [[Медиа:PZAD2017_09_featureselection.pdf|презентация (pdf)]] | ||
+ | |||
+ | |- | ||
+ | | 09.11.17 | ||
+ | | лекция | ||
+ | | '''Категориальные признаки''', '''Рекомендательные системы''' | ||
+ | |||
+ | материалы: | ||
+ | |||
+ | * Дьяконов А. [http://istina.msu.ru/media/publications/article/972/9eb/7537819/sw-factors-dyakonov.pdf Методы решения задач классификации с категориальными признаками] // Прикладная математика и информатика. Труды факультета Вычислительной математики и кибернетики МГУ имени М.В. Ломоносова. — 2014. — № 46. — С. 103–127 | ||
+ | * Y. Koren, R.M. Bell, C. Volinsky Matrix Factorization Techniques for Recommender Systems // IEEE Computer 42(8): 30-37 (2009). | ||
+ | * S. Funk [http://sifter.org/~simon/journal/20061211.html Netflix Update: Try This at Home] | ||
+ | * [http://www.libfm.org/ LibFM]: Factorization Machine Library | ||
+ | |||
+ | * Дьяконов А. [https://github.com/Dyakonov/python_hacks/blob/master/dj_cat_coding.ipynb Python: Кодирование категориальных признаков (ноутбук)] | ||
+ | |||
+ | * [http://www.csie.ntu.edu.tw/~r01922136/slides/ffm.pdf FFM – field-aware factorization machine (слайды)] | ||
+ | |||
+ | * Дьяконов А.Г. [https://bijournal.hse.ru/2012--1(19)/53535879.html Алгоритмы для рекомендательной системы: технология LENKOR] // Бизнес-Информатика, 2012, №1(19), С. 32–39. | ||
+ | |||
+ | |||
+ | | [[Медиа:PZAD2017_10_category_old.pdf|презентация (pdf)]], [[Медиа:PZAD2017_11_recsys.pdf|презентация (pdf)]] | ||
+ | |||
+ | |||
+ | |||
+ | |- | ||
+ | | 09.11.17 | ||
+ | | дз | ||
+ | | До 15.11.17 преодолеть неизвестный бенчмарк задачи [https://www.boosters.pro/champ_10 Boosters] (+ задание в канале). | ||
+ | |||
+ | |||
+ | |- | ||
+ | | 16.12.17 | ||
+ | | лекция | ||
+ | | '''Пост-троечные последовательности''' | ||
+ | |||
+ | материалы: | ||
+ | |||
+ | * Дьяконов А.Г. [http://bijournal.hse.ru/2012--1%2819%29/53535879.html Алгоритмы для рекомендательной системы: технология LENCOR] // Бизнес-Информатика, 2012, №1(19), С. 32–39. | ||
+ | | [[Медиа:PZAD2016_12_post3.pdf|презентация (pdf)]] | ||
+ | |||
Версия 14:38, 10 ноября 2017
Содержание |
ПРИКЛАДНЫЕ ЗАДАЧИ АНАЛИЗА ДАННЫХ (курс для магистров ММП ВМК МГУ)
- Обязательный курс для магистров каф. ММП 1 г/о, читается в 1-м (9-м) семестре.
- Лекции — 32 часа, семинаров - 32 часа.
- Экзамен.
- За курс отвечает кафедра Математических методов прогнозирования.
- Автор программы: профессор А. Г. Дьяконов.
Аннотация
Курс посвящён решению прикладных задач анализа данных. Разбираются реальные задачи и бизнес-кейсы. Студенты пишут и настраивают алгоритмы на языках Python, R, M (Matlab).
Семинары посвящены
- докладам по решению прикладных задач (с презентациями),
- опросам по выполнению домашнего задания,
- обучению программированию на скриптовых языках (для тех, у кого их не было в бакалавриате),
- мозговому штурму по решению задач и обсуждению решений,
- написанию контрольных работ, решению аналитических задач, работе над ошибками.
Система оценивания
В течение семестра студенты получают задания.
При сдаче правильно выполненного задания в срок студент не получает штрафных баллов.
В противном случае - он получает от 1 до 10 штрафных баллов.
Штраф в 10 баллов допустим за позднюю сдачу (даже если решение верное) в случае отсутствия уважительных причин (болезнь, подтверждаемая справкой, и т.п. - см. требования учебной части).
В некоторых случаях (на усмотрение лектора), магистру, который лучше всех выполнил конкретное задание, списываются штрафные баллы (до 10).
На экзамене также за неверные ответы студент получает штрафные баллы.
Итоговая оценка формируется следующим образом:
- до 10 штрафных баллов включительно - отлично,
- до 20 штрафных баллов включительно - хорошо,
- до 30 штрафных баллов включительно - удовлетворительно.
Содержание курса
Наполняется по мере необходимости.
Число | Занятие | Тема | Замечания |
---|---|---|---|
07.09.17 | лекция | Вводное занятие: цели курса, материалы, правила, участие в соревнованиях. | презентация (pdf) |
07.09.17 | семинар | Тест на знание основ машинного обучения. | |
07.09.17 | дз | Регистрация на платформе kaggle.com (каждый участник в четверг должен иметь действующий логин), регистрация на данном ресурсе (по возможности), исследование платформы kaggle (уметь назвать несколько задач с платформы, их постановку, функционал качества, методы, которые использовали участники). | |
14.09.17 | лекция | Оценка среднего и вероятности
материалы:
| презентация (pdf) |
14.09.17 | лекция | ||
14.09.17 | дз | Первое домашнее задание:
Решение задачи [[1]]. Срок - до 04 октября 2017 23:59 (с выкладкой отчёта в [этой ветке форума]). Все вопросы задаются в [форуме]. Поощряется активность: выкладывание скриптов общего назначения (загрузка данных, перевод в нужный формат), бенчмарков (примитивные алгоритмы), ответы на вопросы в форуме. до 27 сентября 2017 23:59 - преодолеть бенчмарк. Напоминание: команды называть по шаблону Ivan Ivanov (MMP, MSU, Russia). | max штраф за задание -10.
Но дополнительно, за непреодоление бенчмарка -5.
|
21.09.17 среда | лекция | Язык программирования Python
| презентация (pdf) |
21.09.17 среда | лекция | Язык программирования Python (продолжение) | |
21.09.17 среда | дз | Готовиться к к/р по языку Python. |
|
28.09.16 | лекция | Визуализация данных
материалы: | |
28.09.16 | лекция | продолжение | |
28.09.16 | дз |
Второе домашнее задание:
| |
05.10.17 | семинар | Отчёт по ДЗ №1 (определение суммы 1й покупки) | |
05.10.17 | лекция | Отчёт по ДЗ №1 (определение суммы 1й покупки) | |
05.10.17 | дз | Следующее реашемое нами соревнование - https://sascompetitions.ru/ - задача Хоум Кредит Банка (подробности на след. занятии). |
|
12.10.17 | лекция | Функционалы качества и ошибки | |
12.10.17 | лекция | Функционалы качества и ошибки
материалы:
| презентация (pdf) **NEW** |
12.10.17 | дз | До следующего занятия в ветке форума выложить найденные закономерности в задаче скоринга (штраф: -5). |
|
19.10.16 | лекция | продолжение Функционалы качества и ошибки, Минимизация ошибок | презентация (pdf) |
19.10.16 | семинар | Обсуждение закономерностей в задаче Скоринг HC | |
19.10.16 | дз |
НОВОЕ ЗАДАНИЕ 1. Подготовиться к контрольной по функционалам качества
2. Решать задачу скоринга
Файлы сабмитов в задаче скоринга начинать с 'msu_'
|
|
26.10.17 | лекция | Случайные леса
материалы:
| презентация (pdf) *OLD* |
26.10.17 | лекция | Случайные леса | |
26.10.17 | д/з | Продолжаем решать задачу скоринга. Штраф -10 за непреодоление нового бенчмарка 0.697481. |
|
02.11.17 | лекция | Градиентный бустинг
материалы:
| презентация (pdf) |
02.11.17 | лекция | Предобработка данных, Генерация признаков | презентация (pdf) , презентация (pdf) |
02.11.17 | д/з | Начинаем решать задачу на платформе ... Boosters (почему-то открывается только через VPN) До след. пары сделать нетривиальный сабмит. |
|
09.11.17 | лекция | Отбор признаков
материалы:
| презентация (pdf) |
09.11.17 | лекция | Категориальные признаки, Рекомендательные системы
материалы:
| презентация (pdf), презентация (pdf)
|
09.11.17 | дз | До 15.11.17 преодолеть неизвестный бенчмарк задачи Boosters (+ задание в канале).
| |
16.12.17 | лекция | Пост-троечные последовательности
материалы:
| презентация (pdf)
|
Успеваемость
Литература
Указана локально - в сетке расписания.
История
Программы прошлых лет см. здесь: