Участник:Kropotov/Песочница

Материал из MachineLearning.

< Участник:Kropotov
Версия от 16:45, 13 ноября 2009; Kropotov (Обсуждение | вклад)
(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)
Перейти к: навигация, поиск
Функция Беллмана V_n(j) в момент времени n для состояния j соответствует стоимости оптимальной траектории при условии, что в момент времени n мы находимся в состоянии j. Такая оптимальная траектория для каждого состояния является единственной. Соответственно, для каждого состояния мы знаем, в частности, из какого начального состояния мы в него попали и сколько времени мы до этого находились в том или ином состоянии (для разных состояний начальные состояния будут, вообще говоря, разными). Что касается состояний в следующий момент времени, то их учитывать не нужно. В момент времени n мы считаем вероятность того, что оптимальная траектория находится в состоянии j и, быть может, это состояние j продолжится и дальше. При переходе к моменту времени n+1 в том случае, если произошел переход между состояниями, то при подсчете V_{n+1}(j) мы скорректируем значение V_n(j) с учетом новых знаний.
Личные инструменты