深度强化学习相关调研笔记
调研笔记
马尔科夫链
马尔可夫链(英语:Markov chain),又称离散时间马可夫链(discrete-time Markov chain,缩写为DTMC[1]),因俄国数学家安德烈·马尔可夫得名,为状态空间中经过从一个状态到另一个状态的转换的随机过程。该过程要求具备“无记忆”的性质:下一状态的概率分布只能由当前状态决定,在时间序列中它前面的事件均与之无关。这种特定类型的“无记忆性”称作马可夫性质。马尔科夫链作为实际过程的统计模型具有许多应用。
强化学习
1.1 假设
- 奖励假设:强化学习的目的是最大化累积奖励的期望
- Markov假设:转移只依赖当前状态和当前选择的动作,与之前的状态和动作无关
1.2环境模型的定义
1.3目标
最大化累积奖励,叫做回报(return)
$$
R:=\sum^{T}_{t=1}{r_t}
$$
【1】现代深度强化学习算法综述
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 CCCCCoke!
评论