Машинное обучение (курс лекций, К.В.Воронцов)

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Обучение без учителя)
(реструктуризация второго семестра)
Строка 102: Строка 102:
* [[Случайный поиск]] и [[Случайный поиск с адаптацией]] (СПА).
* [[Случайный поиск]] и [[Случайный поиск с адаптацией]] (СПА).
<!---
<!---
-
=== Теория обобщающей способности ===
+
== Теория обобщающей способности ==
* [[Теория Вапника-Червоненкиса]]. Функционал равномерного отклонения частот ошибок. [[Функция роста]], [[ёмкость]] семейства алгоритмов. [[Структурная минимизация риска]].
* [[Теория Вапника-Червоненкиса]]. Функционал равномерного отклонения частот ошибок. [[Функция роста]], [[ёмкость]] семейства алгоритмов. [[Структурная минимизация риска]].
* ''Оценка «бритвы Оккама»''.
* ''Оценка «бритвы Оккама»''.
Строка 207: Строка 207:
* Постановка задачи [[кластеризация|кластеризации]]. Примеры прикладных задач. Типы кластерных структур.
* Постановка задачи [[кластеризация|кластеризации]]. Примеры прикладных задач. Типы кластерных структур.
* Статистические алгоритмы: [[EM-алгоритм]] и [[Алгоритм k средних]] (k-means).
* Статистические алгоритмы: [[EM-алгоритм]] и [[Алгоритм k средних]] (k-means).
 +
* [[Нейронная сеть Кохонена]]. [[Конкурентное обучение]], стратегии WTA и WTM.
 +
* [[Самоорганизующаяся карта Кохонена]]. Применение для визуального анализа данных. Искусство интерпретации карт Кохонена.
 +
* [[Агломеративная кластеризация]], [[Алгоритм Ланса-Вильямса]] и его частные случаи.
 +
* Алгоритм построения [[дендрограмма|дендрограммы]]. Определение числа кластеров.
 +
* Свойства сжатия/растяжения, монотонности и редуктивности. Псевдокод редуктивной версии алгоритма.
 +
<!--* ''Потоковые (субквадратичные) алгоритмы кластеризации.''
* [[Графовые алгоритмы кластеризации]]. Выделение связных компонент. [[Кратчайший незамкнутый путь]].
* [[Графовые алгоритмы кластеризации]]. Выделение связных компонент. [[Кратчайший незамкнутый путь]].
* [[Алгоритм ФОРЭЛ]].
* [[Алгоритм ФОРЭЛ]].
* Функционалы качества кластеризации.
* Функционалы качества кластеризации.
 +
* [[Многомерное шкалирование]], примеры прикладных задач.
 +
* Субквадратичный алгоритм, псевдокод. Минимизация функционала стресса методом Ньютона-Рафсона.
 +
* Визуализация: [[карта сходства]], [[диаграмма Шепарда]].
 +
* Совмещение многомерного шкалирования и иерархической кластеризации.
 +
-->
= Второй семестр =
= Второй семестр =
-
== Нейросетевые методы классификации и регрессии ==
+
== Нейронные сети ==
Презентация: [[Media:Voron-ML-NeuralNets-slides.pdf|(PDF,&nbsp;1,8&nbsp;МБ)]] {{важно|— обновление 16.04.2012}}.
Презентация: [[Media:Voron-ML-NeuralNets-slides.pdf|(PDF,&nbsp;1,8&nbsp;МБ)]] {{важно|— обновление 16.04.2012}}.
-
 
-
=== Многослойные нейронные сети ===
 
* Биологический нейрон, [[модель МакКаллока-Питтса]] как [[линейный классификатор]]. Функции активации.
* Биологический нейрон, [[модель МакКаллока-Питтса]] как [[линейный классификатор]]. Функции активации.
* Проблема полноты. [[Задача исключающего или]]. Полнота двухслойных сетей в пространстве булевых функций. Теоремы Колмогорова, Стоуна, Горбаня (без доказательства).
* Проблема полноты. [[Задача исключающего или]]. Полнота двухслойных сетей в пространстве булевых функций. Теоремы Колмогорова, Стоуна, Горбаня (без доказательства).
Строка 223: Строка 232:
* Метод послойной настройки сети.
* Метод послойной настройки сети.
* Подбор структуры сети: методы постепенного усложнения сети, [[оптимальное прореживание нейронных сетей]] (optimal brain damage).
* Подбор структуры сети: методы постепенного усложнения сети, [[оптимальное прореживание нейронных сетей]] (optimal brain damage).
 +
<!--* [[Сети встречного распространения]], их применение для кусочно-постоянной и гладкой аппроксимации функций.
 +
-->
-
== Композиционные методы классификации и регрессии ==
+
== Линейные композиции, бустинг ==
Текст лекций: [[Media:Voron-ML-Compositions.pdf|(PDF,&nbsp;1&nbsp;MБ)]].<br/>
Текст лекций: [[Media:Voron-ML-Compositions.pdf|(PDF,&nbsp;1&nbsp;MБ)]].<br/>
Презентация: [[Media:Voron-ML-Compositions-slides.pdf|(PDF,&nbsp;1.1&nbsp;МБ)]] {{важно|— обновление 04.03.2014}}.
Презентация: [[Media:Voron-ML-Compositions-slides.pdf|(PDF,&nbsp;1.1&nbsp;МБ)]] {{важно|— обновление 04.03.2014}}.
-
 
-
=== Линейные композиции, бустинг ===
 
* Основные понятия: [[базовый алгоритм]] ([[алгоритмический оператор]]), [[корректирующая операция]].
* Основные понятия: [[базовый алгоритм]] ([[алгоритмический оператор]]), [[корректирующая операция]].
* [[Взвешенное голосование]].
* [[Взвешенное голосование]].
* [[Алгоритм AdaBoost]]. Экспоненциальная аппроксимация пороговой функции потерь. Процесс последовательного обучения базовых алгоритмов. Теорема о сходимости [[бустинг]]а.
* [[Алгоритм AdaBoost]]. Экспоненциальная аппроксимация пороговой функции потерь. Процесс последовательного обучения базовых алгоритмов. Теорема о сходимости [[бустинг]]а.
 +
* Обобщающая способность бустинга.
* Базовые алгоритмы в бустинге. Решающие пни.
* Базовые алгоритмы в бустинге. Решающие пни.
* ''Варианты бустинга: [[GentleBoost]], [[LogitBoost]], [[BrownBoost]], и другие.''
* ''Варианты бустинга: [[GentleBoost]], [[LogitBoost]], [[BrownBoost]], и другие.''
-
* [[Алгоритм AnyBoost]].
+
* ''[[Алгоритм AnyBoost]]''.
* [[Градиентный бустинг]].
* [[Градиентный бустинг]].
-
=== Эвристические и стохастические методы ===
+
== Эвристические, стохастические, нелинейные композиции ==
-
* [[Простое голосование]] (комитет большинства). Эвристический алгоритм ComBoost. Идентификация нетипичных объектов (выбросов). Обобщение на большое число классов.
+
* [[Простое голосование]] (комитет большинства). Алгоритм ComBoost. Идентификация нетипичных объектов (выбросов). Обобщение на большое число классов.
-
* ''[[Решающий список]] (комитет старшинства). Эвристический алгоритм. Стратегия выбора классов для базовых алгоритмов.''
+
* [[Решающий список]] (комитет старшинства). Алгоритм обучения. Стратегия выбора классов для базовых алгоритмов.
* Стохастические методы: [[бэггинг]] и [[метод случайных подпространств]].
* Стохастические методы: [[бэггинг]] и [[метод случайных подпространств]].
 +
* Анализ смещения и вариации.
 +
* [[Смесь алгоритмов]], [[область компетентности]] алгоритма.
 +
* Выпуклые функции потерь. Методы построения смесей: последовательный и иерархический.
 +
* Построение смеси алгоритмов с помощью EM-подобного алгоритма.
 +
* ''Нелинейная монотонная корректирующая операция. Случай классификации. Случай регрессии. Задача монотонизации выборки, изотонная регрессия.''
<!---
<!---
=== Метод комитетов ===
=== Метод комитетов ===
Строка 267: Строка 282:
* Применение бустинга, ТЭМП и СПА для оптимизации АВО.
* Применение бустинга, ТЭМП и СПА для оптимизации АВО.
--->
--->
-
 
-
=== Нелинейные алгоритмические композиции ===
 
-
* [[Смесь алгоритмов]], [[область компетентности]] алгоритма.
 
-
* Выпуклые функции потерь. Методы построения смесей: последовательный и иерархический.
 
-
* Построение смеси алгоритмов с помощью EM-подобного алгоритма.
 
-
* ''Нелинейная монотонная корректирующая операция. Случай классификации. Случай регрессии. Задача монотонизации выборки, изотонная регрессия.''
 
-
 
== Ранжирование ==
== Ранжирование ==
Презентация: [[Media:Voron-ML-Ranking-slides.pdf|(PDF,&nbsp;0,5&nbsp;МБ)]] {{важно|— обновление 27.11.2013}}.
Презентация: [[Media:Voron-ML-Ranking-slides.pdf|(PDF,&nbsp;0,5&nbsp;МБ)]] {{важно|— обновление 27.11.2013}}.
-
 
* Постановка задачи [[Обучение ранжированию|обучения ранжированию]]. Примеры.
* Постановка задачи [[Обучение ранжированию|обучения ранжированию]]. Примеры.
* Признаки в задаче ранжирования поисковой выдачи: текстовые, ссылочные, кликовые. [[TF-IDF]]. [[PageRank]].
* Признаки в задаче ранжирования поисковой выдачи: текстовые, ссылочные, кликовые. [[TF-IDF]]. [[PageRank]].
Строка 284: Строка 291:
* Попарный подход: RankingSVM, RankNet, LambdaRank.
* Попарный подход: RankingSVM, RankNet, LambdaRank.
-
== Обучение без учителя ==
+
== Поиск ассоциативных правил ==
-
 
+
-
<!---
+
-
=== Многомерное шкалирование ===
+
-
* [[Многомерное шкалирование]], примеры прикладных задач.
+
-
* Субквадратичный алгоритм, псевдокод. Минимизация функционала стресса методом Ньютона-Рафсона.
+
-
* Визуализация: [[карта сходства]], [[диаграмма Шепарда]].
+
-
* Совмещение многомерного шкалирования и иерархической кластеризации.
+
-
--->
+
-
 
+
-
=== Поиск ассоциативных правил ===
+
Презентация: [[Media:Voron-ML-AssocRules-slides.pdf|(PDF,&nbsp;1.1&nbsp;МБ)]] {{важно| — обновление 21.06.2014}}.
Презентация: [[Media:Voron-ML-AssocRules-slides.pdf|(PDF,&nbsp;1.1&nbsp;МБ)]] {{важно| — обновление 21.06.2014}}.
-
 
* Понятие [[Ассоциативное правило|ассоциативного правила]] и его связь с понятием логической закономерности.
* Понятие [[Ассоциативное правило|ассоциативного правила]] и его связь с понятием логической закономерности.
* Примеры прикладных задач: [[анализ рыночных корзин]], выделение терминов и тематики текстов.
* Примеры прикладных задач: [[анализ рыночных корзин]], выделение терминов и тематики текстов.
Строка 303: Строка 299:
* Общее представление о динамических и иерархических методах поиска ассоциативных правил.
* Общее представление о динамических и иерархических методах поиска ассоциативных правил.
-
=== Задачи с частичным обучением ===
+
== Задачи с частичным обучением ==
Презентация: [[Media:Voron-ML-SSL.pdf|(PDF,&nbsp;0.9&nbsp;МБ)]] {{важно| — обновление 21.06.2014}}.
Презентация: [[Media:Voron-ML-SSL.pdf|(PDF,&nbsp;0.9&nbsp;МБ)]] {{важно| — обновление 21.06.2014}}.
-
 
* Постановка задачи Semisupervised Learning, примеры приложений.
* Постановка задачи Semisupervised Learning, примеры приложений.
* Простые эвристические методы: self-training, co-training, co-learning.
* Простые эвристические методы: self-training, co-training, co-learning.
Строка 312: Строка 307:
* Алгоритм Expectation-Regularization на основе многоклассовой регуляризированной логистической регрессии.
* Алгоритм Expectation-Regularization на основе многоклассовой регуляризированной логистической регрессии.
-
=== Коллаборативная фильтрация ===
+
== Коллаборативная фильтрация ==
Презентация: [[Media:Voron-ML-CF.pdf|(PDF,&nbsp;1.5&nbsp;МБ)]] {{важно| — обновление 13.04.2014}}.
Презентация: [[Media:Voron-ML-CF.pdf|(PDF,&nbsp;1.5&nbsp;МБ)]] {{важно| — обновление 13.04.2014}}.
-
 
* Задачи [[коллаборативная фильтрация|коллаборативной фильтрации]], [[транзакционные данные]] и матрица субъекты—объекты.
* Задачи [[коллаборативная фильтрация|коллаборативной фильтрации]], [[транзакционные данные]] и матрица субъекты—объекты.
* Корреляционные методы user-based, item-based.
* Корреляционные методы user-based, item-based.
Строка 321: Строка 315:
* Неотрицательные матричные разложения. Разреженный SVD. Метод чередующихся наименьших квадратов ALS.
* Неотрицательные матричные разложения. Разреженный SVD. Метод чередующихся наименьших квадратов ALS.
-
=== Тематическое моделирование ===
+
== Тематическое моделирование ==
Текст лекций: [[Media:Voron-ML-TopicModels.pdf|(PDF,&nbsp;830&nbsp;КБ)]].<br/>
Текст лекций: [[Media:Voron-ML-TopicModels.pdf|(PDF,&nbsp;830&nbsp;КБ)]].<br/>
Презентация: [[Media:Voron-ML-TopicModels-slides.pdf|(PDF,&nbsp;2.5&nbsp;МБ)]] {{важно| — обновление 12.11.2014}}.
Презентация: [[Media:Voron-ML-TopicModels-slides.pdf|(PDF,&nbsp;2.5&nbsp;МБ)]] {{важно| — обновление 12.11.2014}}.
-
 
* Задача [[тематическое моделирование|тематического моделирования]] коллекции текстовых документов.
* Задача [[тематическое моделирование|тематического моделирования]] коллекции текстовых документов.
-
* [[Метод максимума правдоподобия]]. Униграммная модель документа. Применение метода множителей Лагранжа.
+
* [[Метод максимума правдоподобия]]. Униграммная модель документа. Применение условий Каруша–Куна–Таккера.
* [[Вероятностный латентный семантический анализ]] PLSA. [[ЕМ-алгоритм]].
* [[Вероятностный латентный семантический анализ]] PLSA. [[ЕМ-алгоритм]].
* [[Латентное размещение Дирихле]] LDA. Сглаженная частотная оценка условной вероятности.
* [[Латентное размещение Дирихле]] LDA. Сглаженная частотная оценка условной вероятности.
Строка 332: Строка 325:
* Регуляризаторы разреживания, сглаживания, декоррелирования и отбора тем.
* Регуляризаторы разреживания, сглаживания, декоррелирования и отбора тем.
-
=== Обучение с подкреплением ===
+
== Обучение с подкреплением ==
Презентация: [[Media:Voron-ML-RL-slides.pdf|(PDF,&nbsp;0.9&nbsp;МБ)]] {{важно| — обновление 21.06.2014}}.
Презентация: [[Media:Voron-ML-RL-slides.pdf|(PDF,&nbsp;0.9&nbsp;МБ)]] {{важно| — обновление 21.06.2014}}.
-
 
* Задача о многоруком бандите. Жадные и эпсилон-жадные стратегии. Метод UCB (upper confidence bound). Стратегия Softmax.
* Задача о многоруком бандите. Жадные и эпсилон-жадные стратегии. Метод UCB (upper confidence bound). Стратегия Softmax.
* Среда для экспериментов.
* Среда для экспериментов.

Версия 18:38, 27 апреля 2015

Содержание

Теория обучения машин (machine learning, машинное обучение) находится на стыке прикладной статистики, численных методов оптимизации, дискретного анализа, и за последние 50 лет оформилась в самостоятельную математическую дисциплину. Методы машинного обучения составляют основу ещё более молодой дисциплины — интеллектуального анализа данных (data mining).

В курсе рассматриваются основные задачи обучения по прецедентам: классификация, кластеризация, регрессия, понижение размерности. Изучаются методы их решения, как классические, так и новые, созданные за последние 10–15 лет. Упор делается на глубокое понимание математических основ, взаимосвязей, достоинств и ограничений рассматриваемых методов. Отдельные теоремы приводятся с доказательствами.

Все методы излагаются по единой схеме:

  • исходные идеи и эвристики;
  • их формализация и математическая теория;
  • описание алгоритма в виде слабо формализованного псевдокода;
  • анализ достоинств, недостатков и границ применимости;
  • пути устранения недостатков;
  • сравнение с другими методами.
  • примеры прикладных задач.

Данный курс расширяет и углубляет набор тем, рекомендованный международным стандартом ACM/IEEE Computing Curricula 2001 по дисциплине «Машинное обучение и нейронные сети» (machine learning and neural networks) в разделе «Интеллектуальные системы» (intelligent systems).

Курс читается

На материал данного курса опираются последующие кафедральные курсы. На кафедре ММП ВМиК МГУ параллельно с данным курсом и в дополнение к нему читается спецкурс Теория надёжности обучения по прецедентам, посвящённый проблемам переобучения и оценивания обобщающей способности.

От студентов требуются знания курсов линейной алгебры, математического анализа, теории вероятностей. Знание математической статистики, методов оптимизации и какого-либо языка программирования желательно, но не обязательно.

Ниже представлена расширенная программа — в полном объёме она занимает больше, чем могут вместить в себя два семестра. Каждый параграф приблизительно соответствует одной лекции. Курсивом выделен дополнительный материал, который может разбираться на семинарах.

Замечания для студентов

  • Видеолекции ШАД Яндекс.
  • На подстранице имеется перечень вопросов к устному экзамену. Очень помогает при подготовке к устному экзамену!
  • О найденных ошибках и опечатках сообщайте мне. — К.В.Воронцов 18:24, 19 января 2009 (MSK)
  • Материал, который есть в pdf-тексте, но не рассказывался на лекциях, обычно не входит в программу экзамена.

Первый семестр

Текст лекций: (PDF, 3 МБ) — обновление 4.10.2011.

Основные понятия и примеры прикладных задач

Презентация: (PDF, 1,4 МБ) — обновление 09.02.2015.

Метрические методы классификации и регрессии

Презентация: (PDF, 3,5 МБ) — обновление 18.02.2015.

Логические методы классификации

Текст лекций: (PDF, 625 КБ).
Презентация: (PDF, 1.8 МБ) — обновление 26.02.2015.

Критерии выбора моделей и методы отбора признаков

Текст лекций: (PDF, 330 КБ).
Презентация: (PDF, 1,0 МБ) — обновление 05.03.2015.

Градиентные методы обучения

Презентация: (PDF, 1,6 МБ) — обновление 09.03.2015.

Метод опорных векторов

Презентация: (PDF, 1,2 МБ) — обновление 16.03.2015.

  • Оптимальная разделяющая гиперплоскость. Понятие зазора между классами (margin).
  • Случаи линейной разделимости и отсутствия линейной разделимости. Связь с минимизацией регуляризованного эмпирического риска. Кусочно-линейная функция потерь.
  • Задача квадратичного программирования и двойственная задача. Понятие опорных векторов.
  • Рекомендации по выбору константы C.
  • Функция ядра (kernel functions), спрямляющее пространство, теорема Мерсера.
  • Способы конструктивного построения ядер. Примеры ядер.
  • SVM-регрессия.
  • Регуляризации для отбора признаков: LASSO SVM, Elastic Net SVM, SFM, RFM.
  • Вероятностная интерпретация регуляризации. Принцип максимума совместного правдоподобия данных и модели. Гауссовский и лапласовский регуляризаторы.
  • Метод релевантных векторов RVM
  • Обучение SVM методом активных ограничений. Алгоритм INCAS. Алгоритм SMO.
  • ню-SVM.

Многомерная линейная регрессия

Презентация: (PDF, 0,7 MБ) — обновление 24.03.2015.

Нелинейная регрессия

Презентация: (PDF, 0,7 MБ) — обновление 02.04.2015.

Прогнозирование временных рядов

Презентация: (PDF, 0,9 MБ) — обновление 06.04.2015.

Байесовская теория классификации

Презентация: (PDF, 1,1 МБ) — обновление 13.04.2015.

Логистическая регрессия. Разделение смеси распределений

Презентация: (PDF, 0,8 МБ) — обновление 20.04.2015.

  • Гипотеза экспоненциальности функций правдоподобия классов. Теорема о линейности байесовского оптимального классификатора. Оценивание апостериорных вероятностей классов с помощью сигмоидной функции активации.
  • Логистическая регрессия. Принцип максимума правдоподобия и логарифмическая функция потерь.
  • Метод стохастического градиента для логарифмической функции потерь. Сглаженное правило Хэбба.
  • Метод наименьших квадратов с итеративным пересчётом весов (IRLS).
  • Пример прикладной задачи: кредитный скоринг. Бинаризация признаков. Скоринговые карты и оценивание вероятности дефолта. Риск кредитного портфеля банка.
  • Смесь распределений.
  • EM-алгоритм: основная идея, понятие скрытых переменных. Теорема об эквивалентной системе уравнений. ЕМ алгоритм как метод простых итераций.
  • Детали реализации EM-алгоритма. Критерий останова. Выбор начального приближения. Выбор числа компонентов смеси.
  • Стохастический EM-алгоритм.
  • Смесь многомерных нормальных распределений. Сеть радиальных базисных функций (RBF) и применение EM-алгоритма для её настройки.
  • Сопоставление RBF-сети и SVM с гауссовским ядром.

Кластеризация

Презентация: (PDF, 1,7 МБ) — обновление 27.04.2015.

Второй семестр

Нейронные сети

Презентация: (PDF, 1,8 МБ) — обновление 16.04.2012.

Линейные композиции, бустинг

Текст лекций: (PDF, 1 MБ).
Презентация: (PDF, 1.1 МБ) — обновление 04.03.2014.

Эвристические, стохастические, нелинейные композиции

  • Простое голосование (комитет большинства). Алгоритм ComBoost. Идентификация нетипичных объектов (выбросов). Обобщение на большое число классов.
  • Решающий список (комитет старшинства). Алгоритм обучения. Стратегия выбора классов для базовых алгоритмов.
  • Стохастические методы: бэггинг и метод случайных подпространств.
  • Анализ смещения и вариации.
  • Смесь алгоритмов, область компетентности алгоритма.
  • Выпуклые функции потерь. Методы построения смесей: последовательный и иерархический.
  • Построение смеси алгоритмов с помощью EM-подобного алгоритма.
  • Нелинейная монотонная корректирующая операция. Случай классификации. Случай регрессии. Задача монотонизации выборки, изотонная регрессия.

Ранжирование

Презентация: (PDF, 0,5 МБ) — обновление 27.11.2013.

  • Постановка задачи обучения ранжированию. Примеры.
  • Признаки в задаче ранжирования поисковой выдачи: текстовые, ссылочные, кликовые. TF-IDF. PageRank.
  • Критерии качества ранжирования: Precision, MAP, AUC, DCG, NDCG, pFound.
  • Ранговая классификация, OC-SVM.
  • Попарный подход: RankingSVM, RankNet, LambdaRank.

Поиск ассоциативных правил

Презентация: (PDF, 1.1 МБ) — обновление 21.06.2014.

  • Понятие ассоциативного правила и его связь с понятием логической закономерности.
  • Примеры прикладных задач: анализ рыночных корзин, выделение терминов и тематики текстов.
  • Алгоритм APriori. Два этапа: поиск частых наборов и рекурсивное порождение ассоциативных правил. Недостатки и пути усовершенствования алгоритма APriori.
  • Алгоритм FP-growth. Понятия FP-дерева и условного FP-дерева. Два этапа поиска частых наборов в FP-growth: построение FP-дерева и рекурсивное порождение частых наборов.
  • Общее представление о динамических и иерархических методах поиска ассоциативных правил.

Задачи с частичным обучением

Презентация: (PDF, 0.9 МБ) — обновление 21.06.2014.

  • Постановка задачи Semisupervised Learning, примеры приложений.
  • Простые эвристические методы: self-training, co-training, co-learning.
  • Адаптация алгоритмов кластеризации для решения задач с частичным обучением. Кратчайшиё незамкнутый путь. Алгоритм Ланса-Уильямса. Алгоритм k-средних.
  • Трансдуктивный метод опорных векторов TSVM.
  • Алгоритм Expectation-Regularization на основе многоклассовой регуляризированной логистической регрессии.

Коллаборативная фильтрация

Презентация: (PDF, 1.5 МБ) — обновление 13.04.2014.

Тематическое моделирование

Текст лекций: (PDF, 830 КБ).
Презентация: (PDF, 2.5 МБ) — обновление 12.11.2014.

Обучение с подкреплением

Презентация: (PDF, 0.9 МБ) — обновление 21.06.2014.

  • Задача о многоруком бандите. Жадные и эпсилон-жадные стратегии. Метод UCB (upper confidence bound). Стратегия Softmax.
  • Среда для экспериментов.
  • Адаптивные стратегии на основе скользящих средних. Метод сравнения с подкреплением. Метод преследования.
  • Общая постановка задачи обучения с подкреплением. Ценность состояния среды. Ценность действия.
  • Метод временных разностей. Метод SARSA. Метод Q-обучения.
  • Многошаговое TD-прогнозирование. Обобщения методов временных разностей, SARSA, Q-обучения.
  • Адаптивный полужадный метод VDBE.

Ссылки

Список подстраниц

Машинное обучение (курс лекций, К.В.Воронцов)/2009Машинное обучение (курс лекций, К.В.Воронцов)/ToDoМашинное обучение (курс лекций, К.В.Воронцов)/Вопросы
Машинное обучение (курс лекций, К.В.Воронцов)/Семестровый курсМашинное обучение (курс лекций, К.В.Воронцов)/Форма отчета
Личные инструменты