MIPT ML 2016 Spring

Материал из MachineLearning.

Перейти к: навигация, поиск
В курсе рассматриваются основные задачи обучения по прецедентам: классификация, кластеризация, регрессия. Изучаются методы их решения, как классические, так и новые, созданные за последние 10–15 лет. Упор делается на глубокое понимание математических основ, взаимосвязей, достоинств и ограничений рассматриваемых методов. Отдельные теоремы приводятся с доказательствами. Данный курс расширяет и углубляет набор тем, рекомендованный международным стандартом ACM/IEEE Computing Curricula 2001 по дисциплине «Машинное обучение и нейронные сети» (machine learning and neural networks) в разделе «Интеллектуальные системы» (intelligent systems).

Семинарская часть курса ставит перед сабой задачи: научить студента видеть задачи машинного обучения в реальной жизни, применять изученные матоды для решения задач машинного обучения, при необходимости реализовать необходимый метод.

Лекторы: Анастасия Зухба, проф. Константин Воронцов.

Семинаристы: Алексей Романенко, Борис Коваленко, Ашуха Арсений, Малых Валентин, Никита Волков

Все вопросы по курсу можно задать через систему piazza.

Анонимные отзывы по курсу можно отправить тут

Содержание

Расписание Лекций

Дата № занятия Занятие Материалы
12 февраля 2016 1 Задачи обучения по прецедентам. Supervised, unsupervised и semi-supervised обучение. Понятия переобучения и обобщающей способности. Скользящий контроль (cross-validation). Лекция1
17 февраля 2016 2 Метрические алгоритмы классификации. Обобщённый метрический классификатор, понятие отступа. Метод ближайших соседей (kNN) и его обобщения. Подбор числа k по критерию скользящего контроля. Отбор эталонных объектов. алгоритм СТОЛП. Лекция 2
24 февраля 2016 3 Построение метрик и отбор признаков. Стандартные метрики. Оценивание качества метрики. Проклятие размерности. Жадный алгоритм отбора признаков. Лекция 3
2 марта 2016 4 Логические закономерности. Статистический критерий информативности Ic(',Xl): смысл и способы вычисления. Энтропийный критерий информативности, информационный выигрыш IGainc(',Xl). Многоклассовые варианты критериев. Индекс Gini. Задача перебора конъюнкций. “Градиентный” алгоритм синтеза конъюнкций и его частные случаи: жадный алгоритм, стохастический локальный поиск, стабилизация, редукция. Лекция 4-5
9 марта 2016 5 Бинаризация признаков, алгоритм выделения информативных зон. Решающие списки. Решающие деревья: принцип работы. Разбиение пространства объектов на подмножества, выделяемые конъюнкциями терминальных вершин. Алгоритм ID3. Пре-прунинг и пост-прунинг. Лекция 4-5
16 марта 2016 6 Знакомство с идеей композиции алгоритмов. Random Forest, Беггинг, RSM, стекинг.

Лекция 6

23 марта 2016 7 Линейная классификация. Непрерывные аппроксимации пороговой функции потерь. Метод минимизации аппроксимированного эмпирического риска. SG, SAG. Связь минимизации аппроксимированного эмпирического риска и максимизации совместного правдоподобия данных и модели. Регуляризация (l1, l2, elastic net). Вероятностный смысл регуляризаторов. Примеры различных функций потерь и классификаторов. Эвристический вывод логистической функции потерь.

Лекция 7

30 марта 2016 8 Метод опорных векторов. Оптимизационная задача с ограничениями в виде неравенств и безусловная. Опорные векторы. Kernel trick.

Лекция 8

6 апреля 2016 9 Задача снижения размерности пространства признаков. Идея метода главных компонент

(PCA). Связь PCA и сингулярного разложения матрицы признаков (SVD). Вычисление SVD в пространствах высокой размерности методом стохастического градиента (SG SVD). Многомерная линейная регрессия. Геометрический и аналитический вывод. Регуляризация в задаче регрессии. Непараметрическая регрессия. Формула Надарая-Ватсона. Регрессионные деревья.||

13 апреля 2016 10 Байесовская классификация. Функционал риска и функционал среднего риска. Оптимальный байесовский классификатор и теорема о минимизации среднего риска. Наивный байесовский классификатор. Восстановление плотности: параметрический и непараметрический подход. Метод Парзеновского окна. Параметрический подход на примере нормального дискриминантного анализа. Линейный дискриминант Фишера.

Лекция 10

20 апреля 2016 11 Байесовская классификация и регрессия. Восстановление смеси распределений. Логистическая регрессия.
27 апреля 2016 12 Задача кластеризации. Аггломеративная и дивизионная кластеризация. Алгоритмы k-Means. Кластеризация с помощью EM-алгоритма (без вывода M-шага). Формула Ланса-Уилльямса.
6 мая 2016 13 Метод обратного распространения ошибок. Основная идея. Основные недостатки и способы их устранения. Выбор начального приближения, числа слоёв, числа нейронов скрытого слоя в градиентных методах настройки нейронных сетей. Методы ускорения сходимости. Метод оптимального прореживания нейронной сети.
11 мая 2016 14 Задача прогнозирования временного ряда, примеры задач. Составление матрицы регрессии, адаптация весов регрессоров во времени. Экспоненциальное сглаживание, модель Хольта, модель Уинтерса.
18 мая 2016 15

Семинары

Арсений Ашуха / Вторник 09:00 - 10:25

Таблица с результатами находится тут, материалы к занятиям находятся тут, cv

Мои студенты, напишите про себя тут, вопросы лучше задавать в piazza =)

Новости:

  1. [08.02.2016] Семинар 1 тут
  2. [15.02.2016] Выложено первое практическое задание, дедлайн [01.03.2016] .
  3. [16.02.2016] Семинар 2 тут
  4. [01.02.2016] Семинар 3 тут
  5. [15.03.2016] Семинар 4 тут
  6. [19.03.2016] Выложено второе практическое задание, дедлайн [03.04.2016]
  7. [22.03.2016] Семинар 5 тут
  8. [20.04.2016] Выложено третье практическое задание, дедлайн [07.05.2016] .

Практические задания:

  1. Практическое задание 1: Метрические классификаторы задание стартовый код контест
  2. Практическое задание 2: Решающие деревья: задание стартовый код контест (вместо непонятного критрерия можете сделать энтропию)
  3. Практическое задание 3: Линейные модели: задание контест

PS:

  1. В задании номер 1 наверняка очень много опечаток, мы постараемся оперативно их исправить. Семинаристы пришлют приглашение в контест.

Коваленко Борис / Вторник 10:35 - 12:00

Лог посещений и результатов тут Linkedin

  1. 9 февраля Семинар #1
  2. 16 февраля Семинар #2
  3. 1 марта Семинар #3
  4. 15 марта Семинар #4
  5. 22 марта Семинар #5

Новости:

  1. [15.02.2016] Выложено первое практическое задание, дедлайн [01.03.2016] .
  2. [19.03.2016] Выложено второе практическое задание, дедлайн [03.04.2016] .
  3. [20.04.2016] Выложено третье практическое задание, дедлайн [07.05.2016] .

Практические задания:

  1. Практичиское задание 1: Метрические классификаторы задание стартовый код контест
  2. Практическое задание 2: Решающие деревья: задание стартовый код контест (вместо непонятного критрерия можете сделать энтропию)
  3. Практическое задание 3: Линейные модели: задание контест

Материалы:

Losing your Loops Fast Numerical Computing with NumPy

Алексей Романенко / Вторник 16:55 - 18:20 / Вторник 18:30 - 20:00

Таблица рейтинга находится тут, материалы семинаров находятся тут,

Новости:

  1. [16.02.2016] Выложено первое опциональное домашнее задание, дедлайн [01.03.2016] .
  2. [06.03.2016] Выложено второе опциональное домашнее задание, дедлайн [15.03.2016] .
  3. [06.03.2016] Выложено решение первого опционального ДЗ.
  4. [16.03.2016] Выложено третье опциональное домашнее задание, дедлайн [23.03.2016] . ДЗ.
  5. [31.03.2016] Выложено четвёртое опциональное домашнее задание, дедлайн [07.04.2016] . ДЗ.
  6. [19.04.2016] Выложено пятое опциональное домашнее задание, дедлайн [26.04.2016] . ДЗ.

Практические задания:

  1. [02.03.2016] Выложено первое обязательное домашнее задание: лабораторная работа по метрическим алгоритмам, дедлайн [19.03.2016] .
  2. [04.04.2016] Выложено второе обязательное домашнее задание: лабораторная работа по метрическим алгоритмам и деревьям решений, дедлайн [17.04.2016] .
  3. [18.04.2016] Выложено третье обязательное домашнее задание: соревнование на базе контеста в Kaggle, дедлайн [01.05.2016] . Материалы контеста выложены также тут.

Валентин Малых / Вторник 18:30 - 20:00

Таблица с результатами находится тут, материалы к занятиям находятся здесь.

Новости:

  1. [10.02.2016] Установка IPython. Рекомендую поставить Python 2.7. Проще всего установить AnacondaPython, который уже включает IPython и практически все нужные пакеты.
  2. [15.02.2016] Выложено первое практическое задание, дедлайн [01.03.2016] .
  3. [15.02.2016] Выложен второй семинар.
  4. [02.03.2016] Выложен третий семинар.
  5. [02.03.2016] Напоминаю, что для сдачи задания нужно создать приватный вопрос на piazza и выложить в него ноутбук с кодом и картинками.
  6. [15.03.2016] Выложен четвертый семинар.
  7. [18.03.2016] Выложено второе практическое задание, дедлайн [02.04.2016]
  8. [28.03.2016] Выложен пятый семинар.
  9. [30.03.2016] Выложен шестой семинар.
  10. [13.03.2016] Выложен седьмой семинар.
  11. [13.03.2016] Выложен восьмой семинар. Если у вас осталась недоделанной лабораторная работа, можно ее сдать через piazza.

Практические задания:

  1. Метрические классификаторы: задание стартовый код контест
  2. Решающие деревья: задание стартовый код контест

Никита Волков / Пятница 15:30 - 16:55 / 213 ЛК

Материалы семинаров. Cтраница в ВК.

Установка ipython: Если у вас Убунта, то не надо мучаться с Анакондой - все проще. А еще можно использовать онлайн ноутбуки.

Инструкции по Python и Jupyter: Если вы плохо разбираетесь в Python и Jupyter, полезно почитать инструкции, которые составлены для курса математической статистики. Ссылки расположены внизу страницы курса.

Новости:

  1. В пятницу 8.04 состоится два семинара в 13:55 и в 15:30, на одном из которых будет контрольная. В пятницу 22.04 семинара не будет.

Анастасия Зухба / Вторник 18:30 - 20:00

Таблица с результатами находится тут, материалы к занятиям находятся здесь.

Новости:

  1. [17.02.2016] Добавлены материалы первого и второго семинара.
  2. [29.03.2016] Добавлено первое домашнее задание. Срок сдачи 18.04.2016

Литература

  1. К. В. Воронцов Математические методы обучения по прецедентам
  2. Trevor Hastie The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Second Edition
  3. Christopher Bishop Pattern Recognition and Machine Learning
  4. Stanford python/numpy linear algebra probability optimization tururials

Позезные пакеты

  1. Anaconda -- установка питона и большого количества библиотек.

Страницы курса прошлых лет

--

См. также

Личные инструменты