Обучение с подкреплением

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
Строка 1: Строка 1:
 +
{{TOCright}}
'''Обучение с подкреплением''', идея которого была почерпнута в смежной области психологии, является подразделом [[машинное обучение|машинного обучения]], изучающим, как ''агент'' должен ''действовать'' в ''окружении'', чтобы максимизировать некоторый долговременный ''выигрыш''.
'''Обучение с подкреплением''', идея которого была почерпнута в смежной области психологии, является подразделом [[машинное обучение|машинного обучения]], изучающим, как ''агент'' должен ''действовать'' в ''окружении'', чтобы максимизировать некоторый долговременный ''выигрыш''.
Алгоритмы с частичным обучением пытаются найти ''стратегию'', приписывающую ''состояниям'' окружающей среды действия, которые должен предпринять агент в этих состояниях.
Алгоритмы с частичным обучением пытаются найти ''стратегию'', приписывающую ''состояниям'' окружающей среды действия, которые должен предпринять агент в этих состояниях.
Строка 6: Строка 7:
Вероятнности выигрышей и перехода состояний в МППР обычно являются величинами случайными, но стационарными в рамках задачи.
Вероятнности выигрышей и перехода состояний в МППР обычно являются величинами случайными, но стационарными в рамках задачи.
-
При обучении с подкреплением, в отличии от [[обучение с учителем|обучения с учителем]],не предоставляются верные пары „входные данные-ответ“, а субоптимальные решения (дающие локальный, а не глобальный экстремум) не корректируются явно.
+
При обучении с подкреплением, в отличии от [[обучение с учителем|обучения с учителем]],не предоставляются верные пары „входные данные-ответ“, а принятие субоптимальнх решений (дающих локальный экстремум) не ограничивается явно.
 +
Обучение с подкреплением пытается найти компромис между исследованием неизученных областей и применением имеющихся знаний.
 +
Баланс изучения-применения при обучении с подкреплением исследовался в задаче [http://en.wikipedia.org/wiki/Multi-armed_bandit многорукого бандита].
 +
 
 +
Формально простейшая модель обучения с подкреплением состоит из:
 +
# множества состояний окружения <i>S</i>;
 +
# множества действий <i>A</i>;
 +
# множества вещественнозначных скалярных „выигрышей“.
 +
 
 +
В произвольный момент времени <i>t</i> агент характеризуется состоянием <tex>s_t \in S</tex> и множеством возможных действий <tex>A(s_t)</tex>.
 +
Выбирая действие <tex>a \in A(s_t)</tex>, он переходит в состояние <tex>s_{t+1}</tex> и получает выигрыш <tex>r_{t+1}</tex>.
 +
Основываясь на таком взаимодействии с окружающей средой, агент, обучающийся с подкреплением, должен выработать стратегию <tex>\pi : S \to A</tex>, которая максимизирует величину <tex>R=r_0+r_1+\cdots+r_n</tex> в случае МППР, имеющей терминальное состояние, или величину <br /> ::<tex>R=\sum_t \gamma^t r_t</tex> <br /> для МППР без терминальных состояний (где <tex>0 \leq 1</tex> —- дисконтирующий множитель для „предстоящего выигрыша“).
 +
 
 +
Таким образом, обучение с подкреплением особенно хорошо подходит для решения задач, связанных с выбором между долгосрочной и краткосрочной выгодой. Оно успешно применялось в различных задчах, таких как робототехника, упраление лифтами, телекоммуникации,шашки и нарды ([http://www.cs.ualberta.ca/~sutton/book/ebook/the-book.html Sutton 1998], Глава 11).
 +
 
 +
== Алгоритмы ==
 +
 
{{UnderConstruction|[[Участник:Дорофеев Н.Ю.|Дорофеев Н.Ю.]] 12:31, 5 ноября 2008 (MSK)}}
{{UnderConstruction|[[Участник:Дорофеев Н.Ю.|Дорофеев Н.Ю.]] 12:31, 5 ноября 2008 (MSK)}}

Версия 13:24, 6 ноября 2008

Содержание

Обучение с подкреплением, идея которого была почерпнута в смежной области психологии, является подразделом машинного обучения, изучающим, как агент должен действовать в окружении, чтобы максимизировать некоторый долговременный выигрыш. Алгоритмы с частичным обучением пытаются найти стратегию, приписывающую состояниям окружающей среды действия, которые должен предпринять агент в этих состояниях. В экономике и теории игр обчение с подкреплением рассматривается в качестве интерпретации того, как может установиться равновесие.

Окружение обычно формулируется как марковский процесс принятия решений (МППР) с конечным множеством состояний, и в этом смысле алгоритмы обучения с подкреплением тесно связаны с динамическим программированием. Вероятнности выигрышей и перехода состояний в МППР обычно являются величинами случайными, но стационарными в рамках задачи.

При обучении с подкреплением, в отличии от обучения с учителем,не предоставляются верные пары „входные данные-ответ“, а принятие субоптимальнх решений (дающих локальный экстремум) не ограничивается явно. Обучение с подкреплением пытается найти компромис между исследованием неизученных областей и применением имеющихся знаний. Баланс изучения-применения при обучении с подкреплением исследовался в задаче многорукого бандита.

Формально простейшая модель обучения с подкреплением состоит из:

  1. множества состояний окружения S;
  2. множества действий A;
  3. множества вещественнозначных скалярных „выигрышей“.

В произвольный момент времени t агент характеризуется состоянием s_t \in S и множеством возможных действий A(s_t). Выбирая действие a \in A(s_t), он переходит в состояние s_{t+1} и получает выигрыш r_{t+1}. Основываясь на таком взаимодействии с окружающей средой, агент, обучающийся с подкреплением, должен выработать стратегию \pi : S \to A, которая максимизирует величину R=r_0+r_1+\cdots+r_n в случае МППР, имеющей терминальное состояние, или величину
 ::R=\sum_t \gamma^t r_t
для МППР без терминальных состояний (где 0 \leq 1 —- дисконтирующий множитель для „предстоящего выигрыша“).

Таким образом, обучение с подкреплением особенно хорошо подходит для решения задач, связанных с выбором между долгосрочной и краткосрочной выгодой. Оно успешно применялось в различных задчах, таких как робототехника, упраление лифтами, телекоммуникации,шашки и нарды (Sutton 1998, Глава 11).

Алгоритмы

Статья в настоящий момент дорабатывается.
Дорофеев Н.Ю. 12:31, 5 ноября 2008 (MSK)


Личные инструменты