如何使用马尔可夫决策

时间:2022-07-06 03:05:44

    如何使用马尔可夫决策?马尔可夫决策过程在例3.9中各状态(需求量大、需求量小)出现的概率在各个时期都是不变的。但在实际情况中,状态出现的概率却往往会随时间而变化,其变化是一个随机过程。其中最简单的一种随机过程就是马尔柯夫过程。所谓马尔柯夫过程是指满足某事件出现的概率只与过去有限时状态有直接联系,而与这些时期以前的经过无直接联系的随机过程。对于某些状态的变化近似于马尔柯夫过程(如产品的市场占有状态)而又包含概率估计的决策问题,马尔可夫决策需要用马尔柯夫决策分析来解决。

    我们把所研究的对象当作一个系统,那么系统的状态都是随时间的转移而变化的。把这种系统由一个时期所处的状态到未来某时期所处的可能状态的转变称为状态转移。系统在相邻两个时期的状态转移称为一次转移,系统经过多个时期的转移称为多次转移。