调研笔记

马尔科夫链

马尔可夫链(英语:Markov chain),又称离散时间马可夫链(discrete-time Markov chain,缩写为DTMC[1]),因俄国数学家安德烈·马尔可夫得名,为状态空间中经过从一个状态到另一个状态的转换的随机过程。该过程要求具备“无记忆”的性质:下一状态的概率分布只能由当前状态决定,在时间序列中它前面的事件均与之无关。这种特定类型的“无记忆性”称作马可夫性质。马尔科夫链作为实际过程的统计模型具有许多应用。

强化学习

1.1 假设

  • 奖励假设:强化学习的目的是最大化累积奖励的期望
  • Markov假设:转移只依赖当前状态和当前选择的动作,与之前的状态和动作无关

1.2环境模型的定义

image-20201230121418162

1.3目标

最大化累积奖励,叫做回报(return)
$$
R:=\sum^{T}_{t=1}{r_t}
$$
image-20201230121848541

【1】现代深度强化学习算法综述

【2】深度强化学习——从DQN到DDPG