MIPT ML 2016 Spring

Материал из MachineLearning.

Перейти к: навигация, поиск
В курсе рассматриваются основные задачи обучения по прецедентам: классификация, кластеризация, регрессия. Изучаются методы их решения, как классические, так и новые, созданные за последние 10–15 лет. Упор делается на глубокое понимание математических основ, взаимосвязей, достоинств и ограничений рассматриваемых методов. Отдельные теоремы приводятся с доказательствами. Данный курс расширяет и углубляет набор тем, рекомендованный международным стандартом ACM/IEEE Computing Curricula 2001 по дисциплине «Машинное обучение и нейронные сети» (machine learning and neural networks) в разделе «Интеллектуальные системы» (intelligent systems).

Семинарская часть курса ставит перед сабой задачи: научить студента видеть задачи машинного обучения в реальной жизни, применять изученные матоды для решения задач машинного обучения, при необходимости реализовать необходимый метод.

Лекторы: Анастасия Зухба, проф. Константин Воронцов.

Семинаристы: Алексей Романенко, Борис Коваленко, Ашуха Арсений,

Все вопросы по курсу можно задать через систему piazza.

Анонимные отзывы по курсу можно отправить тут

Содержание

Расписание Лекций

Дата № занятия Занятие Материалы
12 февраля 2016 1 Задачи обучения по прецедентам. Supervised, unsupervised и semi-supervised обучение. Понятия переобучения и обобщающей способности. Скользящий контроль (cross-validation).
19 февраля 2016 2 Метрические алгоритмы классификации. Обобщённый метрический классификатор, понятие отступа. Метод ближайших соседей (kNN) и его обобщения. Подбор числа k по критерию скользящего контроля. Отбор эталонных объектов. алгоритм СТОЛП.
26 февраля 2016 3 Построение метрик и отбор признаков. Стандартные метрики. Оценивание качества метрики. Проклятие размерности. Жадный алгоритм отбора признаков.
4 марта 2016 4 Логические закономерности. Статистический критерий информативности Ic(',Xl): смысл и способы вычисления. Энтропийный критерий информативности, информационный выигрыш IGainc(',Xl). Многоклассовые варианты критериев. Индекс Gini. Задача перебора конъюнкций. “Градиентный” алгоритм синтеза конъюнкций и его частные случаи: жадный алгоритм, стохастический локальный поиск, стабилизация, редукция.
11 марта 2016 5 Бинаризация признаков, алгоритм выделения информативных зон. Решающие списки. Решающие деревья: принцип работы. Разбиение пространства объектов на подмножества, выделяемые конъюнкциями терминальных вершин. Алгоритм ID3. Пре-прунинг и пост-прунинг.
18 марта 2016 6 Знакомство с идеей композиции алгоритмов. Random Forest, Беггинг, RSM, стекинг.
25 марта 2016 7 Линейная классификация. Непрерывные аппроксимации пороговой функции потерь. Метод минимизации аппроксимированного эмпирического риска. SG, SAG. Связь минимизации аппроксимированного эмпирического риска и максимизации совместного правдоподобия данных и модели. Регуляризация (l1, l2, elastic net). Вероятностный смысл регуляризаторов. Примеры различных функций потерь и классификаторов. Эвристический вывод логистической функции потерь.
1 апреля 2016 8 Метод опорных векторов. Оптимизационная задача с ограничениями в виде неравенств и безусловная. Опорные векторы. Kernel trick.
8 апреля 2016 9 Задача снижения размерности пространства признаков. Идея метода главных компонент

(PCA). Связь PCA и сингулярного разложения матрицы признаков (SVD). Вычисление SVD в пространствах высокой размерности методом стохастического градиента (SG SVD). ||

15 апреля 2016 10 Многомерная линейная регрессия. Геометрический и аналитический вывод. Регуляризация в задаче регрессии. Непараметрическая регрессия. Формула Надарая-Ватсона. Регрессионные деревья.
22 апреля 2016 11 Байесовская классификация и регрессия. Функционал риска и функционал среднего риска. Оптимальный байесовский классификатор и теорема о минимизации среднего риска. Наивный байесовский классификатор.
29 апреля 2016 12 Восстановление плотности: параметрический и непараметрический подход. Метод Парзеновского окна. Параметрический подход на примере нормального дискриминантного анализа. Линейный дискриминант Фишера. Логистическая регрессия.
6 мая 2016 13 Задача кластеризации. Аггломеративная и дивизионная кластеризация. Алгоритмы k-Means. Кластеризация с помощью EM-алгоритма (без вывода M-шага). Формула Ланса-Уилльямса.
13 мая 2016 14 Метод обратного распространения ошибок. Основная идея. Основные недостатки и способы их устранения. Выбор начального приближения, числа слоёв, числа нейронов скрытого слоя в градиентных методах настройки нейронных сетей. Методы ускорения сходимости. Метод оптимального прореживания нейронной сети.
20 мая 2016 15 Задача прогнозирования временного ряда, примеры задач. Составление матрицы регрессии, адаптация весов регрессоров во времени. Экспоненциальное сглаживание, модель Хольта, модель Уинтерса.

Семинары

Семинары: Арсений Ашуха / Вторник 09:00 - 10:25

Таблица с результатами находится тут, материалы к занятиям находятся тут, cv

Новости:

Практические задания:

Семинары: Коваленко Борис / Вторник 10:35 - 12:00

Лог посещений и результатов тут Linkedin

Семинар 1

Новости:

Практические задания:

Семинары: Алексей Романенко / Вторник 16:55 - 18:20 / Вторник 18:30 - 20:00

Таблица рейтинга находится тут, материалы семинаров находятся тут,

Новости:

Практические задания:

Литература

  1. К. В. Воронцов Математические методы обучения по прецедентам
  2. Trevor Hastie The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Second Edition
  3. Christopher Bishop Pattern Recognition and Machine Learning
  4. Stanford python/numpy linear algebra probability optimization tururials

Позезные пакеты

  1. Anaconda -- установка питона и большого количества библиотек.

Страницы курса прошлых лет

--

См. также

Личные инструменты