Машинное обучение (курс лекций, К.В.Воронцов)/Семестровый курс

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
м (Байесовская теория классификации)
(обновление)
Строка 113: Строка 113:
* Оптимизационные постановки задач кластеризации и частичного обучения.
* Оптимизационные постановки задач кластеризации и частичного обучения.
* [[Алгоритм k-средних]] и [[ЕМ-алгоритм]] для разделения гауссовской смеси.
* [[Алгоритм k-средних]] и [[ЕМ-алгоритм]] для разделения гауссовской смеси.
 +
* [[Сеть Кохонена]], конкурентное обучение, стратегии WTA и WTM. [[Самоорганизующаяся карта Кохонена]].
* [[Графовые алгоритмы кластеризации]]. Выделение связных компонент. [[Кратчайший незамкнутый путь]].
* [[Графовые алгоритмы кластеризации]]. Выделение связных компонент. [[Кратчайший незамкнутый путь]].
* [[Алгоритм ФОРЭЛ]].
* [[Алгоритм ФОРЭЛ]].
Строка 124: Строка 125:
== Нейронные сети ==
== Нейронные сети ==
-
Презентация: [[Media:Voron-ML-ANN-slides.pdf|(PDF, 1,4 МБ)]] {{важно|— обновление 13.10.2015}}.
+
Презентация: [[Media:Voron-ML-ANN-slides.pdf|(PDF, 3,8 МБ)]] {{важно|— обновление 04.04.2018}}.
 +
* Функциональная полнота нейронных сетей.
* Многослойная нейронная сеть. [[Алгоритм обратного распространения ошибок]].
* Многослойная нейронная сеть. [[Алгоритм обратного распространения ошибок]].
* Эвристики: формирование начального приближения, ускорение сходимости, [[диагональный метод Левенберга-Марквардта]]. Проблема [[паралич сети|«паралича» сети]].
* Эвристики: формирование начального приближения, ускорение сходимости, [[диагональный метод Левенберга-Марквардта]]. Проблема [[паралич сети|«паралича» сети]].
-
* Метод послойной настройки сети.
 
* Подбор структуры сети: методы постепенного усложнения сети, [[оптимальное прореживание нейронных сетей]] (optimal brain damage).
* Подбор структуры сети: методы постепенного усложнения сети, [[оптимальное прореживание нейронных сетей]] (optimal brain damage).
-
<!--* [[Нейронная сеть Кохонена]]. [[Конкурентное обучение]], стратегии WTA и WTM.
 
-
* [[Самоорганизующаяся карта Кохонена]]. Применение для визуального анализа данных. Искусство интерпретации карт Кохонена.
 
-
* [[Сети встречного распространения]], их применение для кусочно-постоянной и гладкой аппроксимации функций.
 
-
-->
 
* Нейронные сети глубокого обучения.
* Нейронные сети глубокого обучения.
-
* Быстрые методы стохастического градиента: Поляка, Нестерова, AdaGrad, RMSProp, AdaDelta, Adam, Nadam.
+
* Быстрые методы стохастического градиента: Поляка, Нестерова, RMSProp, AdaDelta, Adam, Nadam.
* Проблема взрыва градиента и эвристика gradient clipping
* Проблема взрыва градиента и эвристика gradient clipping
* Метод случайных отключений нейронов (Dropout). Интерпретации Dropout. Обратный Dropout и L2-регуляризация.
* Метод случайных отключений нейронов (Dropout). Интерпретации Dropout. Обратный Dropout и L2-регуляризация.
Строка 142: Строка 139:
* Идея обобщения CNN на любые структурированные данные.
* Идея обобщения CNN на любые структурированные данные.
* Рекуррентные нейронные сети (RNN). Обучение рекуррентных сетей: Backpropagation Through Time (BPTT).
* Рекуррентные нейронные сети (RNN). Обучение рекуррентных сетей: Backpropagation Through Time (BPTT).
-
* Сети долгой кратковременной памяти (Long short-term memory, LSTM)
+
* Сети долгой кратковременной памяти. Long short-term memory (LSTM). Gated Recurrent Unit (GRU).
== Линейные композиции, бустинг ==
== Линейные композиции, бустинг ==

Версия 22:53, 3 апреля 2018

Содержание

Сокращённая версия курса машинного обучения для студентов 4 курса ФУПМ МФТИ.

Дополнительные материалы:

Основные понятия и примеры прикладных задач

Презентация: (PDF, 1,4 МБ) — обновление 09.02.2018.

Метрические методы классификации и регрессии

Презентация: (PDF, 3,2 МБ) — обновление 13.03.2018.

Логические методы классификации

Презентация: (PDF, 1.8 МБ) — обновление 13.03.2018.

Градиентные методы обучения

Презентация: (PDF, 1,1 МБ) — обновление 13.03.2018.

Метод опорных векторов

Презентация: (PDF, 1,1 МБ) — обновление 07.03.2017.

  • Оптимальная разделяющая гиперплоскость. Понятие зазора между классами (margin).
  • Случаи линейной разделимости и отсутствия линейной разделимости. Связь с минимизацией регуляризованного эмпирического риска. Кусочно-линейная функция потерь.
  • Задача квадратичного программирования и двойственная задача. Понятие опорных векторов.
  • Рекомендации по выбору константы C.
  • Функция ядра (kernel functions), спрямляющее пространство, теорема Мерсера.
  • Способы конструктивного построения ядер. Примеры ядер.
  • SVM-регрессия.
  • Регуляризации для отбора признаков: LASSO SVM, Elastic Net SVM, SFM, RFM.
  • Метод релевантных векторов RVM

Линейная и нелинейная регрессия

Презентация: (PDF, 0,8 MБ) — обновление 18.03.2018.

Байесовская теория классификации

Презентация: (PDF, 1,7 МБ) — обновление 26.03.2018.

Кластеризация и частичное обучение

Презентация: (PDF, 1,8 МБ) — обновление 03.04.2018.

Нейронные сети

Презентация: (PDF, 3,8 МБ) — обновление 04.04.2018.

  • Функциональная полнота нейронных сетей.
  • Многослойная нейронная сеть. Алгоритм обратного распространения ошибок.
  • Эвристики: формирование начального приближения, ускорение сходимости, диагональный метод Левенберга-Марквардта. Проблема «паралича» сети.
  • Подбор структуры сети: методы постепенного усложнения сети, оптимальное прореживание нейронных сетей (optimal brain damage).
  • Нейронные сети глубокого обучения.
  • Быстрые методы стохастического градиента: Поляка, Нестерова, RMSProp, AdaDelta, Adam, Nadam.
  • Проблема взрыва градиента и эвристика gradient clipping
  • Метод случайных отключений нейронов (Dropout). Интерпретации Dropout. Обратный Dropout и L2-регуляризация.
  • Функции активации ReLU и PReLU.
  • Свёрточные нейронные сети (CNN). Свёрточный нейрон. Pooling нейрон. Выборка размеченных изображений ImageNet.
  • Идея обобщения CNN на любые структурированные данные.
  • Рекуррентные нейронные сети (RNN). Обучение рекуррентных сетей: Backpropagation Through Time (BPTT).
  • Сети долгой кратковременной памяти. Long short-term memory (LSTM). Gated Recurrent Unit (GRU).

Линейные композиции, бустинг

Презентация: (PDF, 0.9 МБ) — обновление 08.09.2015.

Ранжирование и информационный поиск

Презентация: (PDF, 0,5 МБ) — обновление 14.10.2014.

  • Постановка задачи обучения ранжированию. Примеры.
  • Признаки в задаче ранжирования поисковой выдачи: текстовые, ссылочные, кликовые. TF-IDF. Okapi BM25.
  • PageRank, эффективные способы его вычисления.
  • Критерии качества ранжирования: Precision, MAP, AUC, DCG, NDCG, pFound.
  • Ранговая классификация, OC-SVM.
  • Попарный подход: RankingSVM, RankNet, LambdaRank. Градиентный метод оптимизации AUC.
  • Семантический поиск.
  • Задача тематического моделирования коллекции текстовых документов.
  • Вероятностный латентный семантический анализ PLSA. Метод максимума правдоподобия. ЕМ-алгоритм.
  • Аддитивная регуляризация тематических моделей. Регуляризованный EM-алгоритм, теорема о стационарной точке (применение условий Каруша–Куна–Таккера).
  • Примеры регуляризаторов. Латентное размещение Дирихле LDA. Разреживание, сглаживание, частичное обучение, мультимодальность.
  • Регуляризаторы классификации и регрессии.
  • Регуляризаторы декоррелирования и отбора тем.
  • Критерии качества тематических моделей.

Понижение размерности

Обучение с подкреплением и активное обучение

Презентация: (PDF, 1.0 МБ) — обновление 1.11.2017.

  • Задача о многоруком бандите. Жадные и эпсилон-жадные стратегии. Метод UCB (upper confidence bound). Стратегия Softmax.
  • Среда для экспериментов.
  • Адаптивные стратегии на основе скользящих средних. Метод сравнения с подкреплением. Метод преследования.
  • Постановка задачи в случае, когда агент влияет на среду. Ценность состояния среды. Ценность действия.
  • Жадные стратегии максимизации ценности. Уравнения оптимальности Беллмана.
  • Метод временных разностей TD. Метод Q-обучения.
  • Градиентная оптимизация стратегии (policy gradient). Связь с максимизацией log-правдоподобия.
  • Постановка задачи при наличии информации о среде. Контекстный многорукий бандит.
  • Активное обучение.
  • Сэмплирование по неуверенности. Почему активное обучение быстрее пассивного.
  • Сэмплирование по ожидаемому сокращению ошибки.
  • Взвешивание по плотности.
  • Оценивание качества активного обучения.
  • Введение изучающих действий в стратегию активного обучении. Алгоритмы ε-active и EG-active.

Литература

  1. Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning. Springer, 2014. — 739 p.
  2. Bishop C. M. Pattern Recognition and Machine Learning. — Springer, 2006. — 738 p.
  3. Мерков А. Б. Распознавание образов. Введение в методы статистического обучения. 2011. 256 с.
  4. Мерков А. Б. Распознавание образов. Построение и обучение вероятностных моделей. 2014. 238 с.
  5. Коэльо Л.П., Ричарт В. Построение систем машинного обучения на языке Python. 2016. 302 с.
Личные инструменты