Обучение с подкреплением

Материал из MachineLearning.

(Различия между версиями)

Версия 13:27, 6 ноября 2008

Содержание

1 Алгоритмы

Обучение с подкреплением, идея которого была почерпнута в смежной области психологии, является подразделом машинного обучения, изучающим, как агент должен действовать в окружении, чтобы максимизировать некоторый долговременный выигрыш. Алгоритмы с частичным обучением пытаются найти стратегию, приписывающую состояниям окружающей среды действия, которые должен предпринять агент в этих состояниях. В экономике и теории игр обчение с подкреплением рассматривается в качестве интерпретации того, как может установиться равновесие.

Окружение обычно формулируется как марковский процесс принятия решений (МППР) с конечным множеством состояний, и в этом смысле алгоритмы обучения с подкреплением тесно связаны с динамическим программированием. Вероятнности выигрышей и перехода состояний в МППР обычно являются величинами случайными, но стационарными в рамках задачи.

При обучении с подкреплением, в отличии от обучения с учителем,не предоставляются верные пары „входные данные-ответ“, а принятие субоптимальнх решений (дающих локальный экстремум) не ограничивается явно. Обучение с подкреплением пытается найти компромис между исследованием неизученных областей и применением имеющихся знаний. Баланс изучения-применения при обучении с подкреплением исследовался в задаче многорукого бандита.

Формально простейшая модель обучения с подкреплением состоит из:

множества состояний окружения S;
множества действий A;
множества вещественнозначных скалярных „выигрышей“.

В произвольный момент времени t агент характеризуется состоянием $s_t \in S$ и множеством возможных действий $A(s_t)$ . Выбирая действие $a \in A(s_t)$ , он переходит в состояние $s_{t+1}$ и получает выигрыш $r_{t+1}$ . Основываясь на таком взаимодействии с окружающей средой, агент, обучающийся с подкреплением, должен выработать стратегию $\pi: S \to A$ , которая максимизирует величину $R=r_0+r_1+\cdots+r_n$ в случае МППР, имеющей терминальное состояние, или величину

$R=\sum_t \gamma^t r_t$

для МППР без терминальных состояний (где $0 \leq \gamma \leq 1$ —- дисконтирующий множитель для „предстоящего выигрыша“).

Таким образом, обучение с подкреплением особенно хорошо подходит для решения задач, связанных с выбором между долгосрочной и краткосрочной выгодой. Оно успешно применялось в различных задчах, таких как робототехника, упраление лифтами, телекоммуникации,шашки и нарды (Sutton 1998, Глава 11).

Алгоритмы

Статья в настоящий момент дорабатывается.
Дорофеев Н.Ю. 12:31, 5 ноября 2008 (MSK)

Источник — «http://machinelearning.ru/wiki/index.php?title=%D0%9E%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B5_%D1%81_%D0%BF%D0%BE%D0%B4%D0%BA%D1%80%D0%B5%D0%BF%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5%D0%BC»

@@ Строка 18: / Строка 18: @@
 В произвольный момент времени <i>t</i> агент характеризуется состоянием <tex>s_t \in S</tex> и множеством возможных действий <tex>A(s_t)</tex>.
 Выбирая действие <tex>a \in A(s_t)</tex>, он переходит в состояние <tex>s_{t+1}</tex> и получает выигрыш <tex>r_{t+1}</tex>.
-Основываясь на таком взаимодействии с окружающей средой, агент, обучающийся с подкреплением, должен выработать стратегию <tex>\pi : S \to A</tex>, которая максимизирует величину <tex>R=r_0+r_1+\cdots+r_n</tex> в случае МППР, имеющей терминальное состояние, или величину <br /> ::<tex>R=\sum_t \gamma^t r_t</tex>  <br /> для МППР без терминальных состояний (где <tex>0 \leq 1</tex> —- дисконтирующий множитель для „предстоящего выигрыша“).
+Основываясь на таком взаимодействии с окружающей средой, агент, обучающийся с подкреплением, должен выработать стратегию <tex>\pi: S \to A</tex>, которая максимизирует величину <tex>R=r_0+r_1+\cdots+r_n</tex> в случае МППР, имеющей терминальное состояние, или величину <br />
+::<tex>R=\sum_t \gamma^t r_t</tex> <br />
+для МППР без терминальных состояний (где <tex>0 \leq \gamma \leq 1</tex> —- дисконтирующий множитель для „предстоящего выигрыша“).
 Таким образом, обучение с подкреплением особенно хорошо подходит для решения задач, связанных с выбором между долгосрочной и краткосрочной выгодой. Оно успешно применялось в различных задчах, таких как робототехника, упраление лифтами, телекоммуникации,шашки и нарды ([http://www.cs.ualberta.ca/~sutton/book/ebook/the-book.html Sutton 1998], Глава 11).

Обучение с подкреплением

Материал из MachineLearning.

Версия 13:27, 6 ноября 2008

Содержание

Алгоритмы

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты