Обучение с подкреплением

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск

Дорофеев Н.Ю. (Обсуждение | вклад)
(Новая: '''Обучение с подкреплением''', идея которого была почерпнута в смежной области психологии, является по...)
К следующему изменению →

Версия 09:31, 5 ноября 2008

Обучение с подкреплением, идея которого была почерпнута в смежной области психологии, является подразделом машинного обучения, изучающим, как агент должен действовать в окружении, чтобы максимизировать некоторый долговременный выигрыш. Алгоритмы с частичным обучением пытаются найти стратегию, приписывающую состояниям окружающей среды действия, которые должен предпринять агент в этих состояниях. В экономике и теории игр обчение с подкреплением рассматривается в качестве интерпретации того, как может установиться равновесие.

Окружение обычно формулируется как [марковский процесс принятия решений] (МППР) с конечным множеством состояний, и в этом смысле алгоритмы обучения с подкреплением тесно связаны с динамическим программированием. Вероятнности выигрышей и перехода состояний в МППР обычно являются величинами случайными, но стационарными в рамках задачи.

Продолжение следует...

Статья в настоящий момент дорабатывается.
Дорофеев Н.Ю. 12:31, 5 ноября 2008 (MSK)


Личные инструменты