MIPT ML 2016 Spring

Материал из MachineLearning.

Перейти к: навигация, поиск
В курсе рассматриваются основные задачи обучения по прецедентам: классификация, кластеризация, регрессия. Изучаются методы их решения, как классические, так и новые, созданные за последние 10–15 лет. Упор делается на глубокое понимание математических основ, взаимосвязей, достоинств и ограничений рассматриваемых методов. Отдельные теоремы приводятся с доказательствами. Данный курс расширяет и углубляет набор тем, рекомендованный международным стандартом ACM/IEEE Computing Curricula 2001 по дисциплине «Машинное обучение и нейронные сети» (machine learning and neural networks) в разделе «Интеллектуальные системы» (intelligent systems).

Семинарская часть курса ставит перед сабой задачи: научить студента видеть задачи машинного обучения в реальной жизни, применять изученные матоды для решения задач машинного обучения, при необходимости реализовать необходимый метод.

Лекторы: Анастасия Зухба, проф. Константин Воронцов.

Семинаристы: Алексей Романенко, Борис Коваленко, Ашуха Арсений, Малых Валентин, Никита Волков

Все вопросы по курсу можно задать через систему piazza.

Анонимные отзывы по курсу можно отправить тут

Содержание

Расписание Лекций

Дата № занятия Занятие Материалы
12 февраля 2016 1 Задачи обучения по прецедентам. Supervised, unsupervised и semi-supervised обучение. Понятия переобучения и обобщающей способности. Скользящий контроль (cross-validation). Лекция1
17 февраля 2016 2 Метрические алгоритмы классификации. Обобщённый метрический классификатор, понятие отступа. Метод ближайших соседей (kNN) и его обобщения. Подбор числа k по критерию скользящего контроля. Отбор эталонных объектов. алгоритм СТОЛП. Лекция 2
26 февраля 2016 3 Построение метрик и отбор признаков. Стандартные метрики. Оценивание качества метрики. Проклятие размерности. Жадный алгоритм отбора признаков.
4 марта 2016 4 Логические закономерности. Статистический критерий информативности Ic(',Xl): смысл и способы вычисления. Энтропийный критерий информативности, информационный выигрыш IGainc(',Xl). Многоклассовые варианты критериев. Индекс Gini. Задача перебора конъюнкций. “Градиентный” алгоритм синтеза конъюнкций и его частные случаи: жадный алгоритм, стохастический локальный поиск, стабилизация, редукция.
11 марта 2016 5 Бинаризация признаков, алгоритм выделения информативных зон. Решающие списки. Решающие деревья: принцип работы. Разбиение пространства объектов на подмножества, выделяемые конъюнкциями терминальных вершин. Алгоритм ID3. Пре-прунинг и пост-прунинг.
18 марта 2016 6 Знакомство с идеей композиции алгоритмов. Random Forest, Беггинг, RSM, стекинг.
25 марта 2016 7 Линейная классификация. Непрерывные аппроксимации пороговой функции потерь. Метод минимизации аппроксимированного эмпирического риска. SG, SAG. Связь минимизации аппроксимированного эмпирического риска и максимизации совместного правдоподобия данных и модели. Регуляризация (l1, l2, elastic net). Вероятностный смысл регуляризаторов. Примеры различных функций потерь и классификаторов. Эвристический вывод логистической функции потерь.
1 апреля 2016 8 Метод опорных векторов. Оптимизационная задача с ограничениями в виде неравенств и безусловная. Опорные векторы. Kernel trick.
8 апреля 2016 9 Задача снижения размерности пространства признаков. Идея метода главных компонент

(PCA). Связь PCA и сингулярного разложения матрицы признаков (SVD). Вычисление SVD в пространствах высокой размерности методом стохастического градиента (SG SVD). ||

15 апреля 2016 10 Многомерная линейная регрессия. Геометрический и аналитический вывод. Регуляризация в задаче регрессии. Непараметрическая регрессия. Формула Надарая-Ватсона. Регрессионные деревья.
22 апреля 2016 11 Байесовская классификация и регрессия. Функционал риска и функционал среднего риска. Оптимальный байесовский классификатор и теорема о минимизации среднего риска. Наивный байесовский классификатор.
29 апреля 2016 12 Восстановление плотности: параметрический и непараметрический подход. Метод Парзеновского окна. Параметрический подход на примере нормального дискриминантного анализа. Линейный дискриминант Фишера. Логистическая регрессия.
6 мая 2016 13 Задача кластеризации. Аггломеративная и дивизионная кластеризация. Алгоритмы k-Means. Кластеризация с помощью EM-алгоритма (без вывода M-шага). Формула Ланса-Уилльямса.
13 мая 2016 14 Метод обратного распространения ошибок. Основная идея. Основные недостатки и способы их устранения. Выбор начального приближения, числа слоёв, числа нейронов скрытого слоя в градиентных методах настройки нейронных сетей. Методы ускорения сходимости. Метод оптимального прореживания нейронной сети.
20 мая 2016 15 Задача прогнозирования временного ряда, примеры задач. Составление матрицы регрессии, адаптация весов регрессоров во времени. Экспоненциальное сглаживание, модель Хольта, модель Уинтерса.

Семинары

Арсений Ашуха / Вторник 09:00 - 10:25

Таблица с результатами находится тут, материалы к занятиям находятся тут, cv

Мои студенты, напишите про себя тут, вопросы лучше задавать в piazza =)

Новости:

  1. [08.02.2016] Семинар 1 тут
  2. [15.02.2016] Выложено первое практическое задание, дедлайн [01.03.2016] .
  3. [16.02.2016] Семинар 2 тут

Практические задания:

  1. Практичиское задание 1: Метрические классификаторы задание стартовый код контест

PS:

  1. В задании номер 1 наверняка очень много опечаток, мы постараемся оперативно их исправить. Семинаристы пришлют приглашение в контест.

Коваленко Борис / Вторник 10:35 - 12:00

Лог посещений и результатов тут Linkedin

  1. 9 февраля Семинар #1
  2. 16 февраля Семинар #2

Новости:

  1. [15.02.2016] Выложено первое практическое задание, дедлайн [01.03.2016] .

Практические задания:

  1. Практичиское задание: Метрические классификаторы задание стартовый код контест

Алексей Романенко / Вторник 16:55 - 18:20 / Вторник 18:30 - 20:00

Таблица рейтинга находится тут, материалы семинаров находятся тут,

Новости:

  1. [16.02.2016] Выложено первое опциональное домашнее задание, дедлайн [01.03.2016] .

Практические задания:

Валентин Малых / Вторник 18:30 - 20:00

Таблица с результатами находится тут, материалы к занятиям находятся здесь.

Новости:

  1. [10.02.2016] Установка IPython. Рекомендую поставить Python 2.7. Проще всего установить AnacondaPython, который уже включает IPython и практически все нужные пакеты.
  2. [15.02.2016] Выложено первое практическое задание, дедлайн [01.03.2016] .
  3. [15.02.2016] Выложен второй семинар.

Практические задания:

  1. Практичиское задание: Метрические классификаторы задание стартовый код контест

Никита Волков / Пятница 15:30 - 16:55 / 321 ЛК

Материалы семинаров. Cтраница в ВК.

Установка ipython: Если у вас Убунта, то не надо мучаться с Анакондой - все проще. А еще можно использовать онлайн ноутбуки.

Литература

  1. К. В. Воронцов Математические методы обучения по прецедентам
  2. Trevor Hastie The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Second Edition
  3. Christopher Bishop Pattern Recognition and Machine Learning
  4. Stanford python/numpy linear algebra probability optimization tururials

Позезные пакеты

  1. Anaconda -- установка питона и большого количества библиотек.

Страницы курса прошлых лет

--

См. также

Личные инструменты