强化学习中的经验回放

机器学习

发布日期: 2020-12-23

更新日期: 2025-10-30

文章字数: 1.1k

阅读时长: 3 分

一、时序差分学习（Temporal Difference Learning）

强化学习中常用时序差分学习来更新模型，时序差分学习的一般流程是：

原始的时序差分学习在实际的应用中有两个缺点：

经验浪费
从上面的流程可以看出，经验 $(s_r, a_t, r_t, s_{t+1})$ 在使用一次后就会被丢掉。但是事实上，这些经验可以重复利用的。这也是需要做经验回放的主要原因。
经验相关性太强
前后相邻的经验的相关性太强了。比如对游戏来说，上一帧的画面和下一帧的画面变化很小。实验证明这种相关性是有害的，不利于模型的训练。

经验回放则可以有效的解决上面的两个缺点。

经验回放的原理就是只保留最近的 $n$ 条经验，每次训练时 随机均匀的 从这些经验中 不重复的 选取一条或多条经验来训练。

$n$ 的大小通常在十万到百万之间，视情况而定。这个值对训练影响较大。
经验回放现在是深度强化学习的标准技巧之一。

对经验回放改进有很多，其中一个常见的是优先经验回放。

优先经验回放的原理是 用非均匀抽样代替均匀抽样 来抽取经验。

模型在和环境交互时，获得的经验的重要性是不同的。

比如：在一个打怪升级的游戏中，大多数经验都是和小兵战斗，只有很少的经验是和BOSS战斗。这样就容易导致训练出来的模型容易战胜小兵，但是很难打赢BOSS。所以和BOSS战斗的经验比和小兵战斗的经验更为重要。

对于越不熟悉的状态，模型预测出的 TD error 的绝对值就会越大，所以可以根据 TD error 的绝对值的大小来判断一条经验的重要性。即 TD error 的绝对值越大越重要。

将 TD error 对应到抽样概率的方式有两种：

经验抽样的概率 $p_t$ 正比于 TD error $\delta_t$ 的绝对值加上一个很小的数 $\epsilon$ （避免概率为0）。
$p_t \propto \vert \delta_t \vert + \epsilon$
将所有经验的 TD error 的绝对值进行排序，大的靠前，小的靠后。经验抽样的概率反比于排序后经验所处的位置。
$p_t \propto \frac{1}{rank(t)}$