Policy Gradient - 策略梯度

来源：尔游网

策略梯度(Policy Gradient)

在一个包含Actor、Env、Reward Function的强化学习的情景中，Env和Reward Function是你所不能控制的。

Actor的策略 $\pi$ 是一个参数为 $\theta$ 的网络

输入：以向量或者矩阵表示的机器观察
输出：关联到输出层某个神经元的一个动作

引入奖励机制的话：

策略 $\pi$ 的总奖励：
$R(\tau)=\sum_{t=1}^Tr_t$

策略梯度的计算方法：
$\nabla \overline{R}_\theta = \sum R(\tau)\nabla p_\theta(\tau)=\sum R(\tau)p_\theta \frac{\nabla p_\theta(\tau)}{p_\theta(\tau)}$

由上式，计算策略梯度是， $R(\tau)$ 不需要必须是可微的，甚至可以是一个黑盒。因为不需要对它进行求导。

借助 $\nabla f(x)=f(x)\nabla logf(x)$ ，可得：

$\nabla \overline{R}_\theta = \sum R(\tau)p_\theta(\tau)\nabla logp_\theta(\tau)=E_{\tau\sim p_\theta(\tau)}[R(\tau)\nabla logp_\theta(\tau)]$ $\approx \frac{1}{N}\sum_{n=1}^{N}R(\tau^n)\nabla logp_\theta(\tau^n)=\frac{1}{N}\sum_{n=1}^N\sum_{t=1}^{T_n}R(\tau^n)\nabla logp_\theta(a_t^n|s_t^n)$

也就是说，我们是以采样求和的方式来逼近概率分布 $p_\theta(\tau)$ 下的期望的。

在给定策略 $\pi_\theta$ 的条件下，我们采用梯度下降类似的策略梯度上升的方法来更新模型，注意每一个迹(Trajectory) 仅使用一次。

梯度计算时，在奖励函数R的部分添加一个负的偏移量b，这个偏移量b可以简单取整个奖励函数在迹 $\tau$ 上的期望，这样就形成了一个基准线。高于基准线算出来的log概率是正的，低于基准线算出来log概率是负的。这会使得计算梯度的每一项有增有减，并且只有reward高于基准线，才让其action概率增加，从而解决了单纯因为没有采样导致某个action概率大规模下降的问题。

技巧二：采取更恰当的奖励：

以左半部分为例，上图的意思是，计算action $a_1$ 的reward，原本是只看 $s_a,a_1)$ 这一个pair，但由于执行了 $a_1$ 导致执行 $a_3$ 时会被扣2分，所以 $a_1$ 的reward应该是+3而不是+5。

所以计算reward的更为恰当的方法是，计算执行该步action后的reward总和。

更近一步还可以添加一个折扣因子 $\gamma$ ：

因为我们计算一个action的reward是采用对当前步及以后步求和方式进行的，所以前面步的action会对后面步的action的reward产生影响。引入 $\gamma$ 是为了使得距离越远的action对当前action的reward影响越小。

最后，b也可以是状态的，即每一个state都独有一个b。

还有一种方法是采用基于Actor-Critic模式的优势函数(Advantage function)： $A^\theta(s_t,a_t)$ 来替代 $R(\tau^n)-b$ 。优势函数衡量了在观察 $s_t$ 下采取动作 $a_t$ 而不是其他动作的好坏程度，由critic给出。

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文