Обучение с подкреплением
Материал из MachineLearning.
Строка 6: | Строка 6: | ||
Вероятнности выигрышей и перехода состояний в МППР обычно являются величинами случайными, но стационарными в рамках задачи. | Вероятнности выигрышей и перехода состояний в МППР обычно являются величинами случайными, но стационарными в рамках задачи. | ||
- | + | При обучении с подкреплением, в отличии от [[обучение с учителем|обучения с учителем]],не предоставляются верные пары „входные данные-ответ“, а субоптимальные решения (дающие локальный, а не глобальный экстремум) не корректируются явно. | |
+ | |||
{{UnderConstruction|[[Участник:Дорофеев Н.Ю.|Дорофеев Н.Ю.]] 12:31, 5 ноября 2008 (MSK)}} | {{UnderConstruction|[[Участник:Дорофеев Н.Ю.|Дорофеев Н.Ю.]] 12:31, 5 ноября 2008 (MSK)}} |
Версия 10:06, 6 ноября 2008
Обучение с подкреплением, идея которого была почерпнута в смежной области психологии, является подразделом машинного обучения, изучающим, как агент должен действовать в окружении, чтобы максимизировать некоторый долговременный выигрыш. Алгоритмы с частичным обучением пытаются найти стратегию, приписывающую состояниям окружающей среды действия, которые должен предпринять агент в этих состояниях. В экономике и теории игр обчение с подкреплением рассматривается в качестве интерпретации того, как может установиться равновесие.
Окружение обычно формулируется как марковский процесс принятия решений (МППР) с конечным множеством состояний, и в этом смысле алгоритмы обучения с подкреплением тесно связаны с динамическим программированием. Вероятнности выигрышей и перехода состояний в МППР обычно являются величинами случайными, но стационарными в рамках задачи.
При обучении с подкреплением, в отличии от обучения с учителем,не предоставляются верные пары „входные данные-ответ“, а субоптимальные решения (дающие локальный, а не глобальный экстремум) не корректируются явно.
Статья в настоящий момент дорабатывается. Дорофеев Н.Ю. 12:31, 5 ноября 2008 (MSK) |