Участник:Kropotov/Песочница
Материал из MachineLearning.
- Функция Беллмана в момент времени для состояния соответствует стоимости оптимальной траектории при условии, что в момент времени мы находимся в состоянии . Такая оптимальная траектория для каждого состояния является единственной. Соответственно, для каждого состояния мы знаем, в частности, из какого начального состояния мы в него попали и сколько времени мы до этого находились в том или ином состоянии (для разных состояний начальные состояния будут, вообще говоря, разными). Что касается состояний в следующий момент времени, то их учитывать не нужно. В момент времени мы считаем вероятность того, что оптимальная траектория находится в состоянии и, быть может, это состояние продолжится и дальше. При переходе к моменту времени в том случае, если произошел переход между состояниями, то при подсчете мы скорректируем значение с учетом новых знаний.