Обучение с подкреплением
Материал из MachineLearning.
Строка 18: | Строка 18: | ||
В произвольный момент времени <i>t</i> агент характеризуется состоянием <tex>s_t \in S</tex> и множеством возможных действий <tex>A(s_t)</tex>. | В произвольный момент времени <i>t</i> агент характеризуется состоянием <tex>s_t \in S</tex> и множеством возможных действий <tex>A(s_t)</tex>. | ||
Выбирая действие <tex>a \in A(s_t)</tex>, он переходит в состояние <tex>s_{t+1}</tex> и получает выигрыш <tex>r_{t+1}</tex>. | Выбирая действие <tex>a \in A(s_t)</tex>, он переходит в состояние <tex>s_{t+1}</tex> и получает выигрыш <tex>r_{t+1}</tex>. | ||
- | Основываясь на таком взаимодействии с окружающей средой, агент, обучающийся с подкреплением, должен выработать стратегию <tex>\pi : S \to A</tex>, которая максимизирует величину <tex>R=r_0+r_1+\cdots+r_n</tex> в случае МППР, имеющей терминальное состояние, или величину <br /> ::<tex>R=\sum_t \gamma^t r_t</tex> | + | Основываясь на таком взаимодействии с окружающей средой, агент, обучающийся с подкреплением, должен выработать стратегию <tex>\pi: S \to A</tex>, которая максимизирует величину <tex>R=r_0+r_1+\cdots+r_n</tex> в случае МППР, имеющей терминальное состояние, или величину <br /> |
+ | ::<tex>R=\sum_t \gamma^t r_t</tex> <br /> | ||
+ | для МППР без терминальных состояний (где <tex>0 \leq \gamma \leq 1</tex> —- дисконтирующий множитель для „предстоящего выигрыша“). | ||
Таким образом, обучение с подкреплением особенно хорошо подходит для решения задач, связанных с выбором между долгосрочной и краткосрочной выгодой. Оно успешно применялось в различных задчах, таких как робототехника, упраление лифтами, телекоммуникации,шашки и нарды ([http://www.cs.ualberta.ca/~sutton/book/ebook/the-book.html Sutton 1998], Глава 11). | Таким образом, обучение с подкреплением особенно хорошо подходит для решения задач, связанных с выбором между долгосрочной и краткосрочной выгодой. Оно успешно применялось в различных задчах, таких как робототехника, упраление лифтами, телекоммуникации,шашки и нарды ([http://www.cs.ualberta.ca/~sutton/book/ebook/the-book.html Sutton 1998], Глава 11). |
Версия 13:27, 6 ноября 2008
|
Обучение с подкреплением, идея которого была почерпнута в смежной области психологии, является подразделом машинного обучения, изучающим, как агент должен действовать в окружении, чтобы максимизировать некоторый долговременный выигрыш. Алгоритмы с частичным обучением пытаются найти стратегию, приписывающую состояниям окружающей среды действия, которые должен предпринять агент в этих состояниях. В экономике и теории игр обчение с подкреплением рассматривается в качестве интерпретации того, как может установиться равновесие.
Окружение обычно формулируется как марковский процесс принятия решений (МППР) с конечным множеством состояний, и в этом смысле алгоритмы обучения с подкреплением тесно связаны с динамическим программированием. Вероятнности выигрышей и перехода состояний в МППР обычно являются величинами случайными, но стационарными в рамках задачи.
При обучении с подкреплением, в отличии от обучения с учителем,не предоставляются верные пары „входные данные-ответ“, а принятие субоптимальнх решений (дающих локальный экстремум) не ограничивается явно. Обучение с подкреплением пытается найти компромис между исследованием неизученных областей и применением имеющихся знаний. Баланс изучения-применения при обучении с подкреплением исследовался в задаче многорукого бандита.
Формально простейшая модель обучения с подкреплением состоит из:
- множества состояний окружения S;
- множества действий A;
- множества вещественнозначных скалярных „выигрышей“.
В произвольный момент времени t агент характеризуется состоянием и множеством возможных действий .
Выбирая действие , он переходит в состояние и получает выигрыш .
Основываясь на таком взаимодействии с окружающей средой, агент, обучающийся с подкреплением, должен выработать стратегию , которая максимизирует величину в случае МППР, имеющей терминальное состояние, или величину
для МППР без терминальных состояний (где —- дисконтирующий множитель для „предстоящего выигрыша“).
Таким образом, обучение с подкреплением особенно хорошо подходит для решения задач, связанных с выбором между долгосрочной и краткосрочной выгодой. Оно успешно применялось в различных задчах, таких как робототехника, упраление лифтами, телекоммуникации,шашки и нарды (Sutton 1998, Глава 11).
Алгоритмы
Статья в настоящий момент дорабатывается. Дорофеев Н.Ю. 12:31, 5 ноября 2008 (MSK) |