Участник:Kropotov/Песочница
Материал из MachineLearning.
(Различия между версиями)
Kropotov (Обсуждение | вклад)
(Новая: :Функция Беллмана <tex>V_n(j)</tex> в момент времени <tex>n</tex> для состояния <tex>j</tex> соответствует стоимости опт...)
К следующему изменению →
Версия 16:45, 13 ноября 2009
- Функция Беллмана
в момент времени
для состояния
соответствует стоимости оптимальной траектории при условии, что в момент времени
мы находимся в состоянии
. Такая оптимальная траектория для каждого состояния является единственной. Соответственно, для каждого состояния мы знаем, в частности, из какого начального состояния мы в него попали и сколько времени мы до этого находились в том или ином состоянии (для разных состояний начальные состояния будут, вообще говоря, разными). Что касается состояний в следующий момент времени, то их учитывать не нужно. В момент времени
мы считаем вероятность того, что оптимальная траектория находится в состоянии
и, быть может, это состояние
продолжится и дальше. При переходе к моменту времени
в том случае, если произошел переход между состояниями, то при подсчете
мы скорректируем значение
с учетом новых знаний.