Машинное обучение (курс лекций, В.В.Китов)/2015-2016

Материал из MachineLearning.

Версия от 12:56, 10 марта 2016; Victor Kitov (Обсуждение | вклад)

(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)

Содержание

1 Программа курса
- 1.1 Первый семестр
- 1.2 Второй семестр

Машинное обучение (англ. machine learning) - наука об алгоритмах, которые сами настраиваются на известных данных, выделяя их характерную структуру и взаимосвязи между ними, для их компактного описания, визуализации и последующего предсказания новых аналогичных данных. Наука является сравнительно молодой, поскольку многие алгоритмы автоматической настройки на данных являются вычислительно трудоемкими, и их применение стало возможным только с появлением высокопроизводительных вычислительных средств. Основной акцент курса сделан на задачах предсказания дискретных величин (классификация) и непрерывных величин (регрессия), хотя в курсе также подробно рассматриваются смежные области - эффективное снижение размерности пространства, выделение наиболее значимых признаков для предсказания, методы оценивания и сравнения вероятностных распределений.

Курс читается студентам 3 курса кафедры «Математические методы прогнозирования» ВМиК МГУ, магистрам, зачисленным на эту кафедру, и не проходивших ранее аналогичных курсов, а также для всех желающих. На материал данного курса опираются последующие кафедральные курсы.

По изложению, рассматриваются математические основы методов, лежащие в их основе предположения о данных, взаимосвязи методов между собой и особенности их практического применения.

Курс сопровождается семинарами, раскрывающими дополнительные темы курса и отрабатывающими навыки практического применения рассматриваемых методов. Практическое использование методов машинного обучения в основном будет вестись с использованием языка python и соответствующих библиотек для научных вычислений.

От студентов требуются знания линейной алгебры, математического анализа и теории вероятностей. Знание математической статистики, методов оптимизации и какого-либо языка программирования желательно, но не обязательно.

Курс во многом пересекается с курсом К.В.Воронцова по машинному обучению, с которым также рекомендуется ознакомиться.

Программа курса

Первый семестр

Байесовская теория классификации.

Байесовский алгоритм классификации, минимизирующий цену. Случай одинаковых цен. Дискриминативные и генеративные модели. Частотный и байесовский подходы к оцениванию неизвестных параметров. Генеративные модели классификации с гауссовскими внутриклассовыми распределениями: модели LDA, QDA и RDA (QDA с регуляризацией), а также виды упрощающих предположений о матрице внутриклассовых ковариаций.

Методы работы с пропущенными данными. Метод наивного Байеса.

+мультиномиальная/биномиальная модель наивного Байеса для классификации текстов и преобразование TF-IDF. +разложение ожидаемого квадрата ошибки на смещение и дисперсию (bias-variance tradeoff).

Моделирование смесью распределений.

EM-алгоритм. Доказательство неубывания правдоподобия для EM-алгоритма. Вывод EM-алгоритма для смеси нормальных распределений в векторном случае. Подходы к определению числа компонент. Варианты снижения числа параметров и повышения устойчивости EM-алгоритма для смеси нормальных распределений.

Ядерное сглаживание для оценки плотности.

Случай одномерных и многомерных плотностей-основные ядерные функции. Условия сходимости к истинной плотности. Подходы к определению bandwidth (постоянного и зависящего от x).

Кластеризация.

K-средних. Инициализация EM-алгоритма кластеризацией. Мягкая кластеризация через EM-алгоритм.

Второй семестр

Введение по практическому использованию алгоритмов машинного обучения

Ансамбли алгоритмов.

Bias-Variance tradeoff, bagging, метод случайных подпространств, Random Forest, Extra Random Trees. Жадный алгоритм построения линейных ансамблей (forward stagewise additive modelling). AdaBoost (с выводом).

Ансамбли алгоритмов (продолжение).

Оптимизация ф-ций методом градиентного спуска с вариативным шагом и методом Ньютона. Градиентный бустинг (с примерами квадратичной ошибки, линейного персептрона и логистической ф-ции цены) и бустинг с локальной квадратичной аппроксимацией (с выводом для LogitBoost с вещественнозначными базовыми алгоритмами). Модификация алгоритма, когда базовые алгоритмы-деревья. Shrinkage и subsampling.

Скачать презентацию

Доп. материалы:

Мерков. Введение в методы статистического обучения.

Hastie et. al. The Elements of Statistical Learning.

Нейросети.

Нейросети (продолжение).

Структура нейросетей для распознавания картинок. Пример. Идея глубинного обучения. Метод обратного распространения ошибок.

Скачать презентацию

Доп. материалы:

лекции Джефри Хинтона по нейросетям

Туториалы по глубинному обучению

Книга Yoshua Bengio по глубинному обучению

Детальный обзор по глубинному обучению от Microsoft Research

Бустинг & нейросети (продолжение).

Планируется: обучение в xgBoost. Метод DropOut в нейросетях.

Кластеризация.

Глубинное обучение.

Методы отбора признаков.

Линейные методы снижения размерности.

Нелинейные методы снижения размерности.

Коллаборативная фильтрация.

Online machine learning.

Теория переобучения и оценки обобщающей способности прогнозирующих алгоритмов.

Оптимизация процесса построения модели. Active learning.

Reinforcement learning.

Источник — «http://machinelearning.ru/wiki/index.php?title=%D0%9C%D0%B0%D1%88%D0%B8%D0%BD%D0%BD%D0%BE%D0%B5_%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B5_%28%D0%BA%D1%83%D1%80%D1%81_%D0%BB%D0%B5%D0%BA%D1%86%D0%B8%D0%B9%2C_%D0%92.%D0%92.%D0%9A%D0%B8%D1%82%D0%BE%D0%B2%29/2015-2016»

Категория: Учебные курсы

Машинное обучение (курс лекций, В.В.Китов)/2015-2016

Материал из MachineLearning.

Содержание

Программа курса

Первый семестр

Основные понятия и примеры прикладных задач.

Метрические методы регрессии и классификации.

Методы решающих деревьев.

Оценивание моделей.

Классификация линейными методами.

Линейная и нелинейная регрессия.

Обобщение методов через ядра.

Байесовская теория классификации.

Методы работы с пропущенными данными. Метод наивного Байеса.

Моделирование смесью распределений.

Ядерное сглаживание для оценки плотности.

Кластеризация.

Второй семестр

Введение по практическому использованию алгоритмов машинного обучения

Ансамбли алгоритмов.

Ансамбли алгоритмов (продолжение).

Нейросети.

Нейросети (продолжение).

Бустинг & нейросети (продолжение).

Кластеризация.

Глубинное обучение.

Методы отбора признаков.

Линейные методы снижения размерности.

Нелинейные методы снижения размерности.

Коллаборативная фильтрация.

Online machine learning.

Теория переобучения и оценки обобщающей способности прогнозирующих алгоритмов.

Оптимизация процесса построения модели. Active learning.

Reinforcement learning.

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты