Участник:Kropotov/Песочница

Материал из MachineLearning.

(Различия между версиями)

Kropotov (Обсуждение | вклад)
(Новая: :Функция Беллмана <tex>V_n(j)</tex> в момент времени <tex>n</tex> для состояния <tex>j</tex> соответствует стоимости опт...)
К следующему изменению →

Версия 16:45, 13 ноября 2009

Функция Беллмана $V_n(j)$ в момент времени $n$ для состояния $j$ соответствует стоимости оптимальной траектории при условии, что в момент времени $n$ мы находимся в состоянии $j$ . Такая оптимальная траектория для каждого состояния является единственной. Соответственно, для каждого состояния мы знаем, в частности, из какого начального состояния мы в него попали и сколько времени мы до этого находились в том или ином состоянии (для разных состояний начальные состояния будут, вообще говоря, разными). Что касается состояний в следующий момент времени, то их учитывать не нужно. В момент времени $n$ мы считаем вероятность того, что оптимальная траектория находится в состоянии $j$ и, быть может, это состояние $j$ продолжится и дальше. При переходе к моменту времени $n+1$ в том случае, если произошел переход между состояниями, то при подсчете $V_{n+1}(j)$ мы скорректируем значение $V_n(j)$ с учетом новых знаний.

Источник — «http://machinelearning.ru/wiki/index.php?title=%D0%A3%D1%87%D0%B0%D1%81%D1%82%D0%BD%D0%B8%D0%BA:Kropotov/%D0%9F%D0%B5%D1%81%D0%BE%D1%87%D0%BD%D0%B8%D1%86%D0%B0»

Участник:Kropotov/Песочница

Материал из MachineLearning.

Версия 16:45, 13 ноября 2009

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты