Обучение с подкреплением

Материал из MachineLearning.

(Перенаправлено с Reinforcement learning)
Перейти к: навигация, поиск

Содержание

Обучение с подкреплением, идея которого была почерпнута в смежной области психологии, является подразделом машинного обучения, изучающим, как агент должен действовать в окружении, чтобы максимизировать некоторый долговременный выигрыш. Алгоритмы с частичным обучением пытаются найти стратегию, приписывающую состояниям окружающей среды действия, которые должен предпринять агент в этих состояниях. В экономике и теории игр обучение с подкреплением рассматривается в качестве интерпретации того, как может установиться равновесие.

Окружение обычно формулируется как марковский процесс принятия решений (МППР) с конечным множеством состояний, и в этом смысле алгоритмы обучения с подкреплением тесно связаны с динамическим программированием. Вероятности выигрышей и перехода состояний в МППР обычно являются величинами случайными, но стационарными в рамках задачи.

При обучении с подкреплением, в отличии от обучения с учителем,не предоставляются верные пары „входные данные-ответ“, а принятие субоптимальнх решений (дающих локальный экстремум) не ограничивается явно. Обучение с подкреплением пытается найти компромисс между исследованием неизученных областей и применением имеющихся знаний. Баланс изучения-применения при обучении с подкреплением исследовался в задаче многорукого бандита.

Формально простейшая модель обучения с подкреплением состоит из:

  1. множества состояний окружения S;
  2. множества действий A;
  3. множества вещественнозначных скалярных „выигрышей“.

В произвольный момент времени t агент характеризуется состоянием s_t \in S и множеством возможных действий A(s_t). Выбирая действие a \in A(s_t), он переходит в состояние s_{t+1} и получает выигрыш r_t. Основываясь на таком взаимодействии с окружающей средой, агент, обучающийся с подкреплением, должен выработать стратегию \pi: S \to A, которая максимизирует величину R=r_0 + r_1+\cdots+r_n в случае МППР, имеющего терминальное состояние, или величину

R=\sum_t \gamma^t r_t

для МППР без терминальных состояний (где 0 \leq \gamma \leq 1 —- дисконтирующий множитель для „предстоящего выигрыша“).

Таким образом, обучение с подкреплением особенно хорошо подходит для решения задач, связанных с выбором между долгосрочной и краткосрочной выгодой. Оно успешно применялось в различных областях, таких как робототехника, управление лифтами, телекоммуникации,шашки и нарды (Sutton 1998, Глава 11).

Алгоритмы

Теперь, когда была определена функция выигрыша, нужно определить алгоритм, который будет использоваться для нахождения стратегии, обеспечивающей наилучший результат.

Наивный подход к решению этой задачи подразумевает следующие шаги:

  1. опробовать все возможные стратегии;
  2. выбрать стратегию с наибольшим ожидаемым выигрышем.

Первая проблема такого подхода заключается в том, что количество доступных стратегий может быть очень велико или же бесконечно. Вторая проблема возникает, если выигрыши стохастические — чтобы точно оценить выигрыш от каждой стратегии потребуется многократно применить каждую из них. Этих проблем можно избежать, если допустить некоторую структуризацию и, возможно, позволить результатам, полученным от пробы одной стратегии, влиять на оценку для другой. Двумя основными подходами для реализации этих идей являются оценка функций полезности и прямая оптимизация стратегий.

Подход с использованием функции полезности использует множество оценок ожидаемого выигрыша только для одной стратегии \pi (либо текущей, либо оптимальной). При этом пытаются оценить либо ожидаемый выигрыш, начиная с состояния s, при дальнейшем следовании стратегии \pi,

V(s)=E[R|s,\pi],

либо ожидаемый выигрыш, при принятии решения a в состоянии s и дальнейшем соблюдении \pi,

Q(s,a)=E[R|s,\pi,a].

Если для выбора оптимальной стратегии используется функция полезности Q, то оптимальные действия всегда можно выбрать как действия, максимизирующие полезность. Если же мы пользуемся функцией V, необходимо либо иметь модель окружения в виде вероятностей P(s'|s,a), что позволяет построить функцию полезности вида

Q(s,a)=\sum_{s'}V(s')P(s'|s,a),

либо применить т.н. метод исполнитель-критик, в котором модель делится на две части: критик, оценивающий полезность состояния V, и исполнитель, выбирающий подходящее действие в каждом состоянии.

Имея фиксированную стратегию \pi, оценить E[R|\cdot] при \gamma=0 можно просто усреднив непосредственные выигрыши. Наиболее очевидный способ оценки при \gamma>0 — усреднить суммарный выигрыш после каждого состояния. Однако для этого требуется, чтобы МППР достиг терминального состояния (завершился).

Поэтому построение искомой оценки при \gamma>0 неочевидно. Однако, можно заметить, что R образуют рекурсивное уравнение Беллмана:

E[R|s_t]=r_t+\gamma E[R|s_{t+1}].

Подставляя имеющиеся оценки, V, и применяя метод градиентного спуска с квадратичной функцией ошибок, мы приходим к алгоритму обучения с временными воздействиями. В простейшем случае и состояния, и действия дискретны и можно придерживаться табличных оценок для каждого состояния. Другие похожие методы: Адаптивный эвристический критик (Adaptive Heuristic Critic, AHC), SARSA и Q-обучение (Q-learning). Все вышеупомянутые используют различные методы приближения, но в некоторых случаях сходимость не гарантируется. Для уточнения оценок используется метод градиентного спуска или метод наименьших квадратов в случае линейных приближений.

Указанные методы не только сходятся к корректной оценке для фиксированной стратегии, но и могут быть использованы для нахождения оптимальной стратегии Для этого в большинстве случаев принимают стратегию с максимальной оценкой, принимая иногда случайные шаги для исследования пространства. При выполнении некоторых дополнительных условий существуют доказательства сходимости упомянутых методов к оптимальной стратегии. Однако, эти доказательства гарантируют только асимптотическую сходимость, в то время как поведение алгоритмов обучения с подкреплением в задачах с малыми выборками мало изучено, не считая некоторых очень ограниченных случаев.

Альтернативный метод поиска оптимальной стратегии — искать непосредственно в пространстве стратегий. Таки методы определяют стратегию как параметрическую функцию \pi (s,\theta ) с параметром \theta. Для настройки параметров применяются градиентные методы. Однако, применение градиентных методов осложняется тем, что отсутствует информация о градиенте. Более того, градиент тоже приходится оценивать через зашумлённые результаты выигрышей. Так как это существенно увеличивает вычислительные затраты, может быть выгоднее использовать более мощные градиентные методы, такие как метод скорейшего спуска. Алгоритмы, работающие напрямую с пространством стратегий привлекли значительное внимание в последние 5 лет и в данный момент достигли достаточно зрелой стадии, но до сих пор остаются активным полем для исследований. Существуют и другие подходы, такие как метод отжига, применяемые для исследования пространства стратегий.

Современные исследования

В настоящее время ведутся исследования по Альтернативным представлениям (таких как Представление предсказывающих состояний), градиентный спуск в пространстве стратегий, сходимость для задач с малыми выборками, модулярное и иерархическое обучение с подкреплениями. В последнее время обучение с подкреплением использовалось в психологии для изучения процессов человеческого обучения и деятельности. В частности, исследовались когнитивные модели, симулирующие человеческое поведение в процессе решения задач и/или обретения навыков (Sun, Merril, & Peterson, 2001; Sun, Slusarz, & Terry, 2005; Gray, Sims, Fu, & Schoelles, 2006; Fu & Anderson, 2006). Обучение с подкреплением использовалось, чтобы предложить модель человеческой системы обработки ошибок. Многоагентное или распределённое обучение с подкреплением являются одним из направлений исследований в этой области.

Ссылки

Литература

  • Sutton, Richard S.; Andrew G. Barto Reinforcement Learning: An Introduction.. — MIT Press. refSutton1998, 1998.
  • Ron Sun, E. Merrill, and T. Peterson From implicit skills to explicit knowledge: A bottom-up model of skill learning. // Cognitive Science. — 2001 T. Vol.25, No.2. — С. 203-244.
  • Ron Sun, P. Slusarz, and C. Terry The interaction of the explicit and the implicit in skill learning: A dual-process approach // Psychological Review. — 2005 T. Vol.112, No.1. — С. 159-192.
  • Gray, Wayne D.; Chris R. Sims; Wai-Tat Fu; Michael J. Schoelles The Soft Constraints Hypothesis: A Rational Analysis Approach to Resource Allocation for Interactive Behavior // Psychological Review. — 2006 T. 113 No.3. — С. 461–482.
  • Fu, Wai-Tat; John R. Anderson From Recurrent Choice to Skill Learning: A Reinforcement-Learning Model // Journal of Experimental Psychology: General. — 2006 T. 135 No.2. — С. 184 –206.
Личные инструменты