深度强化学习相关调研笔记

发表于2020-12-30|更新于2024-11-09|智能领域深度强化学习

|阅读量:

调研笔记

马尔科夫链

马尔可夫链（英语：Markov chain），又称离散时间马可夫链（discrete-time Markov chain，缩写为DTMC[1]），因俄国数学家安德烈·马尔可夫得名，为状态空间中经过从一个状态到另一个状态的转换的随机过程。该过程要求具备“无记忆”的性质：下一状态的概率分布只能由当前状态决定，在时间序列中它前面的事件均与之无关。这种特定类型的“无记忆性”称作马可夫性质。马尔科夫链作为实际过程的统计模型具有许多应用。

强化学习

1.1 假设

奖励假设：强化学习的目的是最大化累积奖励的期望
Markov假设：转移只依赖当前状态和当前选择的动作，与之前的状态和动作无关

1.2环境模型的定义

1.3目标

最大化累积奖励，叫做回报(return)
$$
R:=\sum^{T}_{t=1}{r_t}
$$

【1】现代深度强化学习算法综述

【2】深度强化学习——从DQN到DDPG

文章作者: HalfCoke

文章链接: https://halfcoke.github.io/2020/b1d7d7b5/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 CCCCCoke！

深度强化学习

评论

数据库加载中