Машинное обучение (семинары, ВМК МГУ)

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Расписание занятий)
(Расписание занятий)
Строка 140: Строка 140:
Линейные методы:
Линейные методы:
* Знакомство с Vowpal Wabbit
* Знакомство с Vowpal Wabbit
-
| [https://github.com/esokolov/ml-course-msu/blob/master/ML15/src/Sem08_vw.ipynb Пример работы с Vowpal Wabbit]
+
| [https://github.com/esokolov/ml-course-msu/blob/master/ML15/lecture-notes/Sem08_vw.pdf Слайды]
 +
[https://github.com/esokolov/ml-course-msu/blob/master/ML15/src/Sem08_vw.ipynb Пример работы с Vowpal Wabbit]
|
|
|}
|}

Версия 18:48, 3 ноября 2015

Содержание


Выставление оценки за курс

Итоговая контрольная работа:

  1. На последней лекции будет проведена контрольная работа, которая затронет все темы, изученные в течение семестра.
  2. Контрольная оценивается по двухбалльной шкале (зачет/незачет), незачет влечет за собой недопуск к экзамену.
  3. Студент, не получивший допуск, переписывает на экзамене контрольную. В случае успеха он сдает экзамен на первой пересдаче. В случае незачета он снова переписывает контрольную на первой пересдаче, и так далее.

Семинары:

  1. На семинарах по каждой пройденной теме будут проводиться проверочные работы. Каждая проверочная оценивается по пятибалльной шкале. В зависимости от оценки за проверочную, студент освобождается от части или от всех задач по этой теме на итоговой контрольной работе.
  2. Также на семинарах будут выдаваться практические задания, которые будут оцениваться по пятибалльной шкале.
  3. В течение семестра будут проводиться конкурсы по анализу данных. Каждый конкурс оценивается по 15-балльной шкале. За первое, второе и третье место выставляется 15, 13 и 11 баллов соответственно при условии, что студенты выступят с докладом о своем решении (в противном случае они получают 10 баллов). За места с четвертого и по самое последнее, превосходящее бейзлайн, выставляется от 10 до 1 баллов по равномерной сетке. Если все присланные группой решения будут тривиальными, то преподаватель имеет право снизить максимальную оценку до 10 или до 5 баллов.
  4. Оценка за работу в семестре равна сумме оценок за проверочные работы, практические задания и конкурсы.
  5. Если оценка за работу в семестре не меньше 100% от максимальной оценки за проверочные и лабораторные работы, то студент освобождается от написания итоговой контрольной и получает допуск к экзамену автоматом.
  6. Если оценка за работу в семестре не меньше 80% от максимальной оценки за проверочные и лабораторные работы и конкурсы, то студент получает +1 балл на экзамене (при условии получения положительной оценки).
  7. В конце семестра разрешается переписать одну пропущенную по любой причине проверочную работу. Также разрешается переписать все проверочные, пропущенные по уважительной причине.

Осенний семестр 2015/2016

Расписание занятий

Дата Номер Тема Материалы Д/З
4 сентября Семинар 1

Вводное занятие:

  • Знакомство с основными определениями в машинном обучении
  • Этапы решения задачи анализа данных
  • Напоминание основных фактов из прошлых курсов
Конспект
11 сентября Семинар 2

Метрические методы:

  • Особенности метрических методов: чувствительность к масштабу и шуму, проклятие размерности
  • Примеры метрик
  • Задание метрик на категориальных признаках
  • Введение в NumPy, SciPy, Pandas, Scikit-Learn
Конспект

IPython Notebook

25 сентября Семинар 3

Метрические методы:

  • Locality-sensitive hashing
  • Краткое упоминание рандомизированных алгоритмов и обучения хэшированию
  • Векторизация операций в NumPy
  • Практические особенности kNN и LSH
Конспект

IPython Notebook

Домашнее задание
2 октября Семинар 4

Решающие деревья:

  • Жадное построение решающих деревьев
  • Критерии информативности
  • Учет пропущенных значений
  • Стрижка деревьев
  • Работа с категориальными признаками
Конспект Домашнее задание
9 октября Семинар 5

Метрики качества:

  • Регрессия: MSE, MAE, квантильная регрессия
  • Бинарная классификация: precision/recall, AUC-ROC, AUC-PR, Lift
  • Многоклассовая классификация: micro-averaging, macro-averaging
Конспект Домашнее задание
9 октября Семинар 6

Решающие деревья:

  • примеры в sklearn
  • объединение в решающие леса

Выдача первого конкурса:

  • работа с текстами
  • разреженные признаки
  • blending
  • word2vec
Слайды

Код по деревьям

Код по word2vec

Код по данным конкурса

Модель word2vec

16 октября Семинар 7

Линейные методы:

  • векторное дифференцирование
  • геометрия линейных классификаторов
  • разновидности градиентного спуска: GD, SG, SAG
  • длина шага в градиентном спуске

Метрики качества:

  • примеры вычисления в sklearn
  • кросс-валидация и стратификация в sklearn
Конспект

Код по метрикам качества

Домашнее задание
30 октября Семинар 8

Линейные методы:

  • Знакомство с Vowpal Wabbit
Слайды

Пример работы с Vowpal Wabbit

Практические задания

Решения желательно присылать сразу в двух форматах:

  • ссылка для просмотра ноутбука на NBViewer или GitHub
  • файл с ноутбуком во вложении

За каждый день просрочки из оценки вычитается 0.2 балла.

Задание Тема Дата выдачи Срок сдачи Условие
Лабораторная работа 1 Язык Python, основные библиотеки для анализа данных 14.09.2015 27.09.2015, 23:59 Условие
Лабораторная работа 2 Метод ближайших соседей, решающие деревья и категориальные признаки 10.10.2015 01.11.2015, 23:59 Условие

Виртуальная машина с питоном и библиотеками

Полезные ссылки: см. репозиторий.

Соревнования

Задание Тема Дата начала Дата окончания Ссылка
Соревнование 1 Закроют ли тему на StackOverflow? 12.10.2015 03.11.2015 https://kaggle.com/join/mmpcmcmsu15161

Все студенты должны прислать краткий отчет о своем решении и код, воспроизводящий результат.

Оценки

https://docs.google.com/spreadsheets/d/1vK3gM6sAj2TEqO9mPhm5cIuNSmpsw3CIpQnb4G4Dguo/edit?usp=sharing

Страницы курса прошлых лет

2014-2015 год, весна

2014-2015 год, осень

2013-2014 год, весна

2013-2014 год, осень

2012 год

Личные инструменты