Обучение с подкреплением
Материал из MachineLearning.
Строка 1: | Строка 1: | ||
+ | {{TOCright}} | ||
'''Обучение с подкреплением''', идея которого была почерпнута в смежной области психологии, является подразделом [[машинное обучение|машинного обучения]], изучающим, как ''агент'' должен ''действовать'' в ''окружении'', чтобы максимизировать некоторый долговременный ''выигрыш''. | '''Обучение с подкреплением''', идея которого была почерпнута в смежной области психологии, является подразделом [[машинное обучение|машинного обучения]], изучающим, как ''агент'' должен ''действовать'' в ''окружении'', чтобы максимизировать некоторый долговременный ''выигрыш''. | ||
Алгоритмы с частичным обучением пытаются найти ''стратегию'', приписывающую ''состояниям'' окружающей среды действия, которые должен предпринять агент в этих состояниях. | Алгоритмы с частичным обучением пытаются найти ''стратегию'', приписывающую ''состояниям'' окружающей среды действия, которые должен предпринять агент в этих состояниях. | ||
Строка 6: | Строка 7: | ||
Вероятнности выигрышей и перехода состояний в МППР обычно являются величинами случайными, но стационарными в рамках задачи. | Вероятнности выигрышей и перехода состояний в МППР обычно являются величинами случайными, но стационарными в рамках задачи. | ||
- | При обучении с подкреплением, в отличии от [[обучение с учителем|обучения с учителем]],не предоставляются верные пары „входные данные-ответ“, а | + | При обучении с подкреплением, в отличии от [[обучение с учителем|обучения с учителем]],не предоставляются верные пары „входные данные-ответ“, а принятие субоптимальнх решений (дающих локальный экстремум) не ограничивается явно. |
+ | Обучение с подкреплением пытается найти компромис между исследованием неизученных областей и применением имеющихся знаний. | ||
+ | Баланс изучения-применения при обучении с подкреплением исследовался в задаче [http://en.wikipedia.org/wiki/Multi-armed_bandit многорукого бандита]. | ||
+ | |||
+ | Формально простейшая модель обучения с подкреплением состоит из: | ||
+ | # множества состояний окружения <i>S</i>; | ||
+ | # множества действий <i>A</i>; | ||
+ | # множества вещественнозначных скалярных „выигрышей“. | ||
+ | |||
+ | В произвольный момент времени <i>t</i> агент характеризуется состоянием <tex>s_t \in S</tex> и множеством возможных действий <tex>A(s_t)</tex>. | ||
+ | Выбирая действие <tex>a \in A(s_t)</tex>, он переходит в состояние <tex>s_{t+1}</tex> и получает выигрыш <tex>r_{t+1}</tex>. | ||
+ | Основываясь на таком взаимодействии с окружающей средой, агент, обучающийся с подкреплением, должен выработать стратегию <tex>\pi : S \to A</tex>, которая максимизирует величину <tex>R=r_0+r_1+\cdots+r_n</tex> в случае МППР, имеющей терминальное состояние, или величину <br /> ::<tex>R=\sum_t \gamma^t r_t</tex> <br /> для МППР без терминальных состояний (где <tex>0 \leq 1</tex> —- дисконтирующий множитель для „предстоящего выигрыша“). | ||
+ | |||
+ | Таким образом, обучение с подкреплением особенно хорошо подходит для решения задач, связанных с выбором между долгосрочной и краткосрочной выгодой. Оно успешно применялось в различных задчах, таких как робототехника, упраление лифтами, телекоммуникации,шашки и нарды ([http://www.cs.ualberta.ca/~sutton/book/ebook/the-book.html Sutton 1998], Глава 11). | ||
+ | |||
+ | == Алгоритмы == | ||
+ | |||
{{UnderConstruction|[[Участник:Дорофеев Н.Ю.|Дорофеев Н.Ю.]] 12:31, 5 ноября 2008 (MSK)}} | {{UnderConstruction|[[Участник:Дорофеев Н.Ю.|Дорофеев Н.Ю.]] 12:31, 5 ноября 2008 (MSK)}} |
Версия 13:24, 6 ноября 2008
|
Обучение с подкреплением, идея которого была почерпнута в смежной области психологии, является подразделом машинного обучения, изучающим, как агент должен действовать в окружении, чтобы максимизировать некоторый долговременный выигрыш. Алгоритмы с частичным обучением пытаются найти стратегию, приписывающую состояниям окружающей среды действия, которые должен предпринять агент в этих состояниях. В экономике и теории игр обчение с подкреплением рассматривается в качестве интерпретации того, как может установиться равновесие.
Окружение обычно формулируется как марковский процесс принятия решений (МППР) с конечным множеством состояний, и в этом смысле алгоритмы обучения с подкреплением тесно связаны с динамическим программированием. Вероятнности выигрышей и перехода состояний в МППР обычно являются величинами случайными, но стационарными в рамках задачи.
При обучении с подкреплением, в отличии от обучения с учителем,не предоставляются верные пары „входные данные-ответ“, а принятие субоптимальнх решений (дающих локальный экстремум) не ограничивается явно. Обучение с подкреплением пытается найти компромис между исследованием неизученных областей и применением имеющихся знаний. Баланс изучения-применения при обучении с подкреплением исследовался в задаче многорукого бандита.
Формально простейшая модель обучения с подкреплением состоит из:
- множества состояний окружения S;
- множества действий A;
- множества вещественнозначных скалярных „выигрышей“.
В произвольный момент времени t агент характеризуется состоянием и множеством возможных действий .
Выбирая действие , он переходит в состояние и получает выигрыш .
Основываясь на таком взаимодействии с окружающей средой, агент, обучающийся с подкреплением, должен выработать стратегию , которая максимизирует величину в случае МППР, имеющей терминальное состояние, или величину
::
для МППР без терминальных состояний (где —- дисконтирующий множитель для „предстоящего выигрыша“).
Таким образом, обучение с подкреплением особенно хорошо подходит для решения задач, связанных с выбором между долгосрочной и краткосрочной выгодой. Оно успешно применялось в различных задчах, таких как робототехника, упраление лифтами, телекоммуникации,шашки и нарды (Sutton 1998, Глава 11).
Алгоритмы
Статья в настоящий момент дорабатывается. Дорофеев Н.Ю. 12:31, 5 ноября 2008 (MSK) |