RL 实践（7）—— CartPole【TRPO & PPO】_cartpole rl-程序员宅基地

技术标签： # 实践 pytorch # 强化学习强化学习 TRPO PPO

本文介绍 PPO 这个 online RL 的经典算法，并在 CartPole-V0 上进行测试。由于 PPO 是源自 TRPO 的，因此也会在原理部分介绍 TRPO
参考：张伟楠《动手学强化学习》、王树森《深度强化学习》
完整代码下载：8_[Gym] CartPole-V0 (PPO)

文章目录

1. TRPO（置信域策略优化）方法
2. PPO（近端策略优化）方法
3. 总结

1. TRPO（置信域策略优化）方法

置信域策略优化 (Trust Region Policy Optimization, TRPO) 是一种策略学习方法，跟朴素的策略梯度方法相比有两个优势：
1. TRPO表现更稳定，收敛曲线不会剧烈波动，而且对学习率不敏感
2. TRPO 用更少的经验数据（transition 四元组）就能达到与策略梯度方法相同的表现

1.1 朴素策略梯度方法的问题

前文已经介绍了 policy gradient 方法 REINFORCE & Actor-Critic 以及其带 baseline 的改进版本 REINFORCE with baseline & A2C。这些方法的核心思想都是：参数化 agent 策略 $\pi_\theta$ ，设计衡量策略好坏的目标函数 $J(\theta)=\mathbb{E}_{s}[V_{\pi_\theta}(s)] = \mathbb{E}_{\pi_\theta}[\sum_{t=0}^\infin \gamma^tr(s_t,a_t)]$ 通过梯度上升的方法找出最大化这个目标函数的策略参数 $\theta^* =\argmax_\theta J(\theta)$ ，从而得到最优策略 $\pi_{\theta^*}$
但是这种算法有一个明显的缺点：注意到在环境中 rollout 时，策略 $\pi_\theta$ 会被重复使用，即使策略只有微小的改变，也可能导致最终收益的巨大变化。当策略网络是深度模型时这种特性尤其明显，因此在沿着策略梯度方向更新参数时
$\theta \leftarrow \theta + \beta \triangledown_\theta J(\theta)$ 很有可能由于步长 $\beta$ 太长导致策略突然显著变差，进而影响训练效果。宏观上看就是朴素的策略梯度方法训练不够稳定
针对以上问题，TRPO 的思想是在更新时找到一块信任区域（trust region），认为在这个区域上更新策略时能够得到某种策略性能的安全性保证，从而避免策略崩溃

为了实现这种安全性保证，我们必须舍弃掉随机梯度上升而改用其他的优化算法，TRPO 选择了置信域方法 (Trust Region Methods)

1.2 置信域优化法

置信域优化法是数值最优化领域中一类经典的算法，历史至少可以追溯到 1970 年。其出发点是：如果对目标函数 $J(\theta)$ 进行优化过于困难，不妨构造一个替代函数 $L(\theta|\theta_{now})$ ，要求替代函在 $\theta$ 的当前值 $\theta_{now}$ 的邻域 $\mathcal{N}(\theta_{now})$ 内和 $J(\theta)$ 十分相似的，通过在这个局部范围内最优化 $L(\theta|\theta_{now})$ 来更新一次 $\theta$ 值，反复迭代上述过程直到收敛

其中 $\mathcal{N}(\theta_{now})$ 就被称作置信域，顾名思义，在 $\theta_{now}$ 的邻域上我们可以信任 $L(\theta|\theta_{now})$ ，可以拿它来替代目标函数 $J(\theta)$

具体而言每轮迭代可以分成两步
1. 做近似：给定 $\theta_{now}$ ，构造函数 $L(\theta| \theta_{now})$ ，使得对于所有的 $\in\mathcal{N}(\theta_{now})$ （置信域内取值），函数值 $L(\theta| \theta_{now})$ 与原优化目标 $J(\theta)$ 足够接近
2. 最大化：在置信域 $\mathcal{N}(\theta_{now})$ 中寻找变量 $\theta$ 的值，使得替代函数 $L$ 的值最大化。即求 $\theta_{new} = \argmax_{\theta \in \mathcal{N}(\theta_{now})}L(\theta|\theta_{now})$
注意每一轮迭代中，我们都在构造并求解一个小的约束优化问题，可以如下图示
注意到置信域半径控制着每一轮迭代中 $\theta$ 变化的上限，我们通常会让这个半径随优化过程不断减小来避免 overstep
置信域方法是一种算法框架而非一个具体的算法。有很多种方式实现实现置信域方法：
1. 第一步做近似的方法有多种多样，比如蒙特卡洛、二阶泰勒展开等
2. 第二步解一个约束最大化问题的方法也很多，包括梯度投影算法、拉格朗日法等
3. 置信域 $\mathcal{N}(\theta_{now})$ 也有多种多样的选择，既可以是球，也可以是两个概率分布的 KL 散度等

1.3 TRPO 公式推导

TRPO 是一种将置信域优化方法应用到策略学习中的 Online RL 方法。回顾 policy gradient 算法，优化目标为最大化
$\begin{aligned} J(\theta) &=\mathbb{E}_{S\sim d^{\pi_{\theta}}}[V_{\pi_\theta}(S)] \\ &=\mathbb{E}_{S\sim d^{\pi_{\theta}}}\big[\mathbb{E}_{A\sim\pi_\theta(·|S)}[Q_{\pi_\theta}(S,A)]\big] \end{aligned} \tag{1}$ 其中 $d^{\pi_{\theta}}$ 是策略 $\pi_\theta$ 诱导的状态分布。考虑置信域优化法的迭代过程，每一步我们要构造优化问题：基于当前的参数 $\theta_{now}$ 优化 $\theta$ ，故在式1中引入 $\theta_{now}$
$\begin{aligned} J(\theta|\theta_{now}) &=\mathbb{E}_{S\sim d^{\pi_{\theta}}}\big[\mathbb{E}_{A\sim\pi_\theta(·|S)}[Q_{\pi_\theta}(S,A)]\big] \\ &=\mathbb{E}_{S\sim d^{\pi_{\theta}}}\left[\mathbb{E}_{A\sim\pi_{\theta_{now}}(·|S)}\left[\frac{ \pi_{\theta}(A|S) }{\pi_{\theta_{now}}(A|S)}\cdot Q_{\pi_\theta}(S,A)\right]\right] \\ \end{aligned} \tag{2}$ 注意 $J(\theta|\theta_{now})$ 是关于 $\theta$ 的函数，含有 $\theta_{now}$ 的成分都可以看做常数，故以上是一个恒等变换。下面开始推导每轮迭代的两个关键步骤

1.3.1 做近似

原始优化目标 $J(\theta|\theta_{now})$ 中 $d^{\pi_{\theta}}$ 和 $Q_\theta$ 都不知道，无法直接优化，需要进行三步近似来构造替代函数
1. 用当前策略 $\pi_{\theta_{now}}$ 诱导的状态分布 $d^{\pi_{\theta_{now}}}$ 近似 $d^{\pi_{\theta}}$ ，原始优化目标近似为
  $\mathbb{E}_{S\sim d^{\pi_{\theta_{now}}}}\left[\mathbb{E}_{A\sim\pi_{\theta_{now}}(·|S)}\left[\frac{ \pi_{\theta}(A|S) }{\pi_{\theta_{now}}(A|S)}\cdot Q_{\pi_\theta}(S,A)\right]\right]$
2. 用 MC 近似消去上式中的两个期望。具体而言，先用当前策略 $\pi_{\theta_{now}}$ 和环境交互收集一条轨迹
  $s_1, a_1, r_1, s_2, a_2, r_2,...,s_n, a_n, r_n$ 此轨迹满足 $s_t\sim d^{\pi_{\theta_{now}}}, a_t\sim \pi_{\theta_{now}}(·|s_t)$ ，故每个 $s_t,a_t)$ 二元组都能构造一个无偏 MC 估计
  $\frac{ \pi_{\theta}(a_t|s_t) }{\pi_{\theta_{now}}(a_t|s_t)}\cdot Q_{\pi_\theta}(a_t,s_t)$ 用这些无偏估计的期望（均值）来近似原始优化目标，得到
  $\frac{1}{n}\sum_{t=1}^n \frac{ \pi_{\theta}(a_t|s_t) }{\pi_{\theta_{now}}(a_t|s_t)}\cdot Q_{\pi_\theta}(a_t,s_t)$
3. 用真实 return 对 $Q_{\pi_\theta}(a_t,s_t)$ 进行 MC 近似，具体而言
  $Q_{\pi_\theta}(a_t,s_t) \quad\Longrightarrow\quad Q_{\pi_{\theta_{now}}}(a_t,s_t) \quad\Longrightarrow\quad u_t=r_t + \gamma r_{t+1} + \gamma^2 r_{t+2} + ...+ \gamma^{n-t} r_{n}$
综上得到对优化目标 $J(\theta|\theta_{now})$ 的近似
$L(\theta|\theta_{now}) = \frac{1}{n}\sum_{t=1}^n \frac{ \pi_{\theta}(a_t|s_t) }{\pi_{\theta_{now}}(a_t|s_t)}\cdot u_t \tag{3}$ 注意近似过程中假设了 $\pi_{\theta}$ 和 $\pi_{\theta_{now}}$ 极其接近，以至于可以认为二者诱导的状态分布一致，这样就能完全避免策略优化后进入坏状态引发 1.1 节的 overstep 问题。因此需要强调置信域：只有 $\theta$ 靠近 $\theta_{now}$ 时才是有效近似。

1.3.2 最大化

每轮迭代中，求解以下约束优化问题
$\max_\theta L(\theta|\theta_{now}) \quad \text{s.t} \quad\theta\in\mathcal{N}(\theta_{now}).$ 我们认为在置信域 $\mathcal{N}(\theta_{now})$ 内 $d^{\pi_{\theta_{now}}}$ 近似 $d^{\pi_{\theta}}$ ，这个约束越紧，就越能避免 1.1 节的 overstep 问题
邻域（置信域） $\mathcal{N}(\theta_{now})$ 的选取方法通常有两种
1. 简单地设置一个关于参数的欧式距离的阈值 $\triangle$ ，即 $||\theta-\theta_{now}||_2 \leq \triangle$ 这时置信域是以 $\theta_{now}$ 为球心， $\triangle$ 为半径的超球。这种选择可以让约束优化问题的求解容易一些
2. 另一种方式是设置一个关于策略的 KL 散度的阈值 $\triangle$ ，即
  $\mathbb{E}_{S\sim d^{\pi_{\theta_{now}}}} D_\text{KL}\big[\pi_{\theta_{now}}(·|S) || \pi_{\theta}(·|S) \big] \leq \triangle$ 此 KL 散度同样用 1.3.1 节中 $\pi_{\theta_{now}}$ 交互得到的轨迹来做 MC 近似计算，即
  $\frac{1}{n} \sum_{t=1}^n D_\text{KL}\big[\pi_{\theta_{now}}(·|s_t) || \pi_{\theta}(·|s_t) \big] \leq \triangle$ 这种做法可以直接约束策略的变化程度。实践表明这种置信域设定表现较好，对于 RL 来说，约束 “行为上的距离” 可能比约束 “参数上的距离” 更加合适
综上得到每轮迭代的约束优化问题为
$\begin{aligned} &\max_\theta&&\frac{1}{n}\sum_{t=1}^n \frac{ \pi_{\theta}(a_t|s_t) }{\pi_{\theta_{now}}(a_t|s_t)}\cdot u_t \\ &\text{s.t.} &&\frac{1}{n} \sum_{t=1}^n D_\text{KL}\big[\pi_{\theta_{now}}(·|s_t) || \pi_{\theta}(·|s_t) \big] \leq \triangle \\ & \text{where} && s_t\sim d^{\pi_{\theta_{now}}}, a_t\sim \pi_{\theta_{now}}(·|s_t) \end{aligned}$ 这个问题求解起来很麻烦，大概思路是
1. 对优化目标在 $\theta_{now}$ 处进行一阶泰勒展开
2. 对约束函数在 $\theta_{now}$ 处进行二阶泰勒展开
3. 用拉格朗日乘子法转换为无约束优化问题，通过 KKT 条件得到 $\theta$ 的最优解
其中二阶泰勒展开带来的黑塞矩阵尺寸很大，编程时要使用共轭梯度法进行处理；另外由于泰勒展开近似得不到精确解，还要用线性搜索来确保约束条件满足，这些问题导致 TRPO 实现复杂，没有大规模流行

1.4 小结

置信域方法指的是一大类数值优化算法，通常用于求解非凸问题。对于一个最大化问题，算法重复两个步骤——做近似、最大化——直到算法收敛
置信域策略优化（TRPO）是一种利用置信域算法优化策略的 On-policy Online RL 方法，它的优化目标和策略梯度方法相同，每次策略训练仅使用上一轮策略采样的数据，是 policy-based 类算法中十分有代表性的工作之一。直觉性地理解，TRPO 给出的观点是：由于策略的改变导致数据分布的改变，这大大影响深度模型实现的策略网络的学习效果，所以通过划定一个可信任的策略学习区域，保证策略学习的稳定性和有效性
TRPO中有两个需要调的超参数：一个是置信域的半径 $\triangle$ ，另一个是求解最大化问题的数值算法的学习率。通常来说， $\triangle$ 在算法的运行过程中要逐渐缩小。虽然TRPO需要调参，但是TRPO对超参数的设置并不敏感，即使超参数设置不够好，TRPO的表现也不会太差。相比之下，策略梯度算法对超参数更敏感
TRPO 的优势在于更好的稳定性和更高的样本效率；缺点在于每步迭代求解约束优化问题的过程繁琐，算法实现复杂，其后续工作 PPO 很好地解决了此问题，成为了非常流行的 Online RL 方法

2. PPO（近端策略优化）方法

PPO 基于 TRPO 的思想，但是其算法实现更加简单。大量的实验结果表明，PPO 能和 TRPO 学习得一样好且收敛更快，这使得 PPO 和 SAC、TD3 一起成为三大最流行的强化学习算法。如果我们想要尝试在一个新的环境中使用强化学习，可以首先尝试这三个算法
PPO 算法框架和 TRPO 无异，其核心思想在于将 “最大化” 操作中的约束优化问题转换为无约束优化来简化问题

2.1 PPO 公式推导

前文 1.3 节推 TRPO 优化目标时是从 policy gradient 法的原始优化目标开始推导的，那样推比较简单，得到优化目标为
$J(\theta|\theta_{now}) = \mathbb{E}_{S\sim d^{\pi_{\theta}}}\left[\mathbb{E}_{A\sim\pi_{\theta_{now}}(·|S)}\left[\frac{ \pi_{\theta}(A|S) }{\pi_{\theta_{now}}(A|S)}\cdot Q_{\pi_\theta}(S,A)\right]\right]$ 但 TRPO 和 PPO 的原始论文中使用了另一种推导方法，最后得到的优化目标略有不同，为
$J(\theta|\theta_{now}) = \mathbb{E}_{S\sim d^{\pi_{\theta}}}\left[\mathbb{E}_{A\sim\pi_{\theta_{now}}(·|S)}\left[\frac{ \pi_{\theta}(A|S) }{\pi_{\theta_{now}}(A|S)}\cdot A_{\pi_{\theta_{now}}}(S,A)\right]\right]$ 其中 $A (S, A)$ 函数是前文 RL 实践（6）—— CartPole【REINFORCE with baseline & A2C】中介绍的优势函数 $A_\pi(s,a) \stackrel{\triangle}{=} Q_\pi(s,a) - V_\pi(s)$ 这两种优化目标都是可行的，由于 TRPO 和 PPO 的论文都用了后者，这里也推导一下这个目标
推导的出发点是希望借助当前参数 $\theta_{now}$ 推导出新的 $\theta$ 可以使得 $J(\theta)\geq J(\theta_{now})$ 。这里优化目标设定为在初始状态分布 $S_0$ 下的状态价值期望 $J(\theta) = \mathbb{E}_{S_0}[V_{\pi_\theta}(S_0)]$ ，有
$\begin{aligned} J(\theta) & =\mathbb{E}_{S_{0}}\left[V_{\pi_{\theta}}\left(S_{0}\right)\right] \\ & =\mathbb{E}_{s_t\sim d^{\pi_{\theta}}}\left[\sum_{t=0}^{\infty} \gamma^{t} V_{\pi_{\theta}}\left(s_{t}\right)-\sum_{t=1}^{\infty} \gamma^{t} V_{\pi_{\theta}}\left(s_{t}\right)\right] \\ & =-\mathbb{E}_{s_t\sim d^{\pi_{\theta}}}\left[\sum_{t=0}^{\infty} \gamma^{t}\left(\gamma V_{\pi_{\theta}}\left(s_{t+1}\right)-V_{\pi_{\theta}}\left(s_{t}\right)\right)\right] \end{aligned}$ 考虑到策略诱导的状态分布和初始分布 $S_0$ 无关，当期望括号内仅和初始状态有关时，这个期望所关于的分布可以任意取，这样我们可以推导新旧策略的目标函数之间的差距
$\begin{aligned} J\left(\theta\right)-J(\theta_{now}) & =\mathbb{E}_{S_{0}}\left[V_{\pi_{\theta}}\left(S_{0}\right)\right]-\mathbb{E}_{S_{0}}\left[V_{\pi_{\theta_{now}}}\left(S_{0}\right)\right] \\ & =\mathbb{E}_{s_t\sim d^{\pi_{\theta}}}\left[\sum_{t=0}^{\infty} \gamma^{t} r\left(s_{t}, a_{t}\right)\right]+\mathbb{E}_{s_t\sim d^{\pi_{\theta}}}\left[\sum_{t=0}^{\infty} \gamma^{t}\left(\gamma V_{\pi_{\theta_{now}}}\left(s_{t+1}\right)-V_{\pi_{\theta_{now}}}\left(s_{t}\right)\right)\right] \\ & =\mathbb{E}_{s_t,a_t\sim d^{\pi_{\theta}}}\left[\sum_{t=0}^{\infty} \gamma^{t}\left[r\left(s_{t}, a_{t}\right)+\gamma V_{\pi_{\theta_{now}}}\left(s_{t+1}\right)-V_{\pi_{\theta_{now}}}\left(s_{t}\right)\right]\right]\\ & =\mathbb{E}_{s_t,a_t\sim d^{\pi_{\theta}}}\left[\sum_{t=0}^{\infty}\gamma^t A_{\pi_{\theta_{now}}}(s_t,a_t) \right]\\ &=\frac{1}{1-\gamma}\mathbb{E}_{S\sim d^{\pi_{\theta}}}\left[\mathbb{E}_{A\sim\pi_{\theta}(·|s_t)}\left[A_{\pi_{\theta_{now}}}(S,A)\right]\right] \end{aligned}$ 故只要能找到一个新策略 $\pi_\theta$ 使得 $\frac{1}{1-\gamma}\mathbb{E}_{s_t\sim d^{\pi_{\theta}}}\left[\mathbb{E}_{a_t\sim\pi_{\theta}(·|s_t)}\left[A_{\pi_{\theta_{now}}}(s_t,a_t)\right]\right]\geq 0$ ，就能保证策略性能单调递增 $J(\theta) \geq J(\theta_{now})$ 。去掉其中常数部分再用重要度采样改为用 $\pi_{\theta_{now}}$ 采样动作，就得到了 TRPO/PPO 的优化目标函数
$J(\theta|\theta_{now}) = \mathbb{E}_{S\sim d^{\pi_{\theta}}}\left[\mathbb{E}_{A\sim\pi_{\theta_{now}}(·|S)}\left[\frac{ \pi_{\theta}(A|S) }{\pi_{\theta_{now}}(A|S)}\cdot A_{\pi_{\theta_{now}}}(S,A)\right]\right]$

2.1.1 做近似

得到替代函数的方法完全类似 1.3.1 节，进行三次近似即可。具体而言
1. 用当前策略 $\pi_{\theta_{now}}$ 诱导的状态分布 $d^{\pi_{\theta_{now}}}$ 近似 $d^{\pi_{\theta}}$ ，原始优化目标近似为
  $\mathbb{E}_{S\sim d^{\pi_{ {\theta_{now}}}}}\left[\mathbb{E}_{A\sim\pi_{\theta_{now}}(·|S)}\left[\frac{ \pi_{\theta}(A|S) }{\pi_{\theta_{now}}(A|S)}\cdot A_{\pi_{\theta_{now}}}(S,A)\right]\right]$
2. 用 MC 近似消去上式中的两个期望。具体而言，先用当前策略 $\pi_{\theta_{now}}$ 和环境交互收集一条轨迹
  $s_1, a_1, r_1, s_2, a_2, r_2,...,s_n, a_n, r_n$ 此轨迹满足 $s_t\sim d^{\pi_{\theta_{now}}}, a_t\sim \pi_{\theta_{now}}(·|s_t)$ ，故每个 $s_t,a_t)$ 二元组都能构造一个无偏 MC 估计
  $\frac{ \pi_{\theta}(a_t|s_t) }{\pi_{\theta_{now}}(a_t|s_t)}\cdot A_{\pi_{\theta_{now}}}(a_t,s_t)$ 用这些无偏估计的期望（均值）来近似原始优化目标，得到
  $\frac{1}{n}\sum_{t=1}^n \frac{ \pi_{\theta}(a_t|s_t) }{\pi_{\theta_{now}}(a_t|s_t)}\cdot A_{\pi_{\theta_{now}}}(a_t,s_t)$
3. 最后我们考虑如何估计优势函数 $A_{\pi_{\theta_{now}}}(a_t,s_t)$ 。目前比较常用的方法是 广义优势估计(Generalized Advantage Estimation，GAE)，先简介一下 GAE
  首先将 TD Error 表示为 $\delta_t = r_t + \gamma V(s_{t+1})-V(s_t)$ ，其中 $V$ 是一个已经学习的状态价值函数，根据多步 TD 思想有
  $\begin{array}{ll} A_{t}^{(1)}=\delta_{t} & =-V\left(s_{t}\right)+r_{t}+\gamma V\left(s_{t+1}\right) \\ A_{t}^{(2)}=\delta_{t}+\gamma \delta_{t+1} & =-V\left(s_{t}\right)+r_{t}+\gamma r_{t+1}+\gamma^{2} V\left(s_{t+2}\right) \\ A_{t}^{(3)}=\delta_{t}+\gamma \delta_{t+1}+\gamma^{2} \delta_{t+2} & =-V\left(s_{t}\right)+r_{t}+\gamma r_{t+1}+\gamma^{2} r_{t+2}+\gamma^{3} V\left(s_{t+3}\right) \\ \vdots & \vdots \\ A_{t}^{(k)}=\sum_{l=0}^{k-1} \gamma^{l} \delta_{t+l} & =-V\left(s_{t}\right)+r_{t}+\gamma r_{t+1}+\ldots+\gamma^{k-1} r_{t+k-1}+\gamma^{k} V\left(s_{t+k}\right) \end{array}$ GAE 将这些不同步数的优势估计进行指数加权平均：
  $\begin{aligned} A_{t}^{G A E} & =(1-\lambda)\left(A_{t}^{(1)}+\lambda A_{t}^{(2)}+\lambda^{2} A_{t}^{(3)}+\cdots\right) \\ & =(1-\lambda)\left(\delta_{t}+\lambda\left(\delta_{t}+\gamma \delta_{t+1}\right)+\lambda^{2}\left(\delta_{t}+\gamma \delta_{t+1}+\gamma^{2} \delta_{t+2}\right)+\cdots\right) \\ & =(1-\lambda)\left(\delta\left(1+\lambda+\lambda^{2}+\cdots\right)+\gamma \delta_{t+1}\left(\lambda+\lambda^{2}+\lambda^{3}+\cdots\right)+\gamma^{2} \delta_{t+2}\left(\lambda^{2}+\lambda^{3}+\lambda^{4}+\ldots\right)+\cdots\right) \\ & =(1-\lambda)\left(\delta_{t} \frac{1}{1-\lambda}+\gamma \delta_{t+1} \frac{\lambda}{1-\lambda}+\gamma^{2} \delta_{t+2} \frac{\lambda^{2}}{1-\lambda}+\cdots\right) \\ & =\sum_{l=0}^{\infty}(\gamma \lambda)^{l} \delta_{t+l} \end{aligned}$ 其中， $\lambda \in[0,1]$ 是在 GAE 中额外引入的一个超参数
  1. $\lambda=0$ 时， $A_{t}^{G A E} = \delta_t = r_t + \gamma V(s_{t+1})-V(s_t)$ 是仅仅只看一步差分得到的优势
  2. $\lambda=1$ 时， $A_{t}^{G A E}=\sum_{l=0}^{\infty} \gamma^{l} \delta_{t+l}=\sum_{l=0}^{\infty} \gamma^{l} r_{t+l}-V\left(s_{t}\right)$ 是看每一步差分得到优势的完全平均值。
  另外还可以得到以下递推关系
  $\begin{aligned} &\delta_t =\left\{ \begin{aligned} &r_t, && \text{get done signal when transfor to } s_{t+1} \\ &r_t + \gamma V(s_{t+1})-V(s_t), && \text{otherwise} \\ \end{aligned} \right.\\ \space\\ &A_{t}^{G A E} = \delta_t + \gamma\lambda A_{t+1}^{G A E} \\ \end{aligned}$
  利用 GAE 估计优势函数 $A_{\pi_{\theta_{now}}}(a_t,s_t)$ 时，需要计算 $\pi_{now}$ 交互得到的轨迹每个 timestep的 TD error $\delta_t$ ，为此需要引入价值网络（critic）来估计 $V_{\theta_{now}}$ ，得到所有 $\delta_t$ 后直接代入 GAE 公式 $A_{t}^{G A E}=\sum_{l=0}^{\infty}(\gamma \lambda)^{l} \delta_{t+l}$ 即可

2.1.2 最大化

最大化这一步是 PPO 和 TRPO 唯一的区别，首先二者的置信域约束优化问题均可表示为
$\begin{aligned} &\max_\theta &&\mathbb{E}_{S\sim d^{\pi_{ {\theta_{now}}}}}\mathbb{E}_{A\sim\pi_{\theta_{now}}(·|S)}\left[\frac{ \pi_{\theta}(A|S) }{\pi_{\theta_{now}}(A|S)}\cdot A_{\pi_{\theta_{now}}}(S,A)\right] \\ &\text{s.t.} &&\mathbb{E}_{S\sim d^{\pi_{\theta_{now}}}} D_\text{KL}\big[\pi_{\theta_{now}}(·|S) || \pi_{\theta}(·|S) \big] \leq \triangle \end{aligned}$
1. TRPO 使用泰勒展开近似、共轭梯度、线性搜索等方法直接求解约束优化问题
2. PPO 使用拉格朗日乘子法、限制目标函数等方式去除约束，然后就可以直接用梯度下降简单地求解无约束最优化问题
具体来说，PPO 有两种形式，一是 PPO-惩罚，二是 PPO-截断，我们接下来对这两种形式进行介绍：
1. PPO-惩罚：用拉格朗日乘数法直接将 KL 散度的限制放进了目标函数中，将原问题转换为无约束优化问题。迭代过程中根据真实的 KL 散度值（约束效果）不断更新 KL 散度前的拉格朗日乘数（调节约束强度）。第 $k$ 轮优化函数为：
  $\argmax_\theta \mathbb{E}_{S\sim d^{\pi_{ {\theta_{k}}}}}\mathbb{E}_{A\sim\pi_{\theta_{k}}(·|S)}\left[\frac{ \pi_{\theta}(A|S) }{\pi_{\theta_{k}}(A|S)}\cdot A_{\pi_{\theta_{k}}}(S,A)-\beta D_\text{KL}\big[\pi_{\theta_{k}}(·|S) || \pi_{\theta}(·|S) \big] \right]$ 令 $d_k = D_\text{KL}\big[\pi_{\theta_{k}}(·|S) || \pi_{\theta}(·|S) \big]$ ， $\beta$ 的更新规则如下
  $\beta_{k+1}=\left\{ \begin{aligned} \frac{\beta_k}{2}, && d_k < \frac{\delta}{1.5} \\ 2\beta_k, && d_k >1.5 \delta \\ \beta_k, && otherwise \end{aligned} \right.$ 其中 $\delta$ 是事先设定的一个超参数，用于限制学习策略和之前一轮策略的差距
2. PPO-截断：直接在目标函数中进行限制，以保证新的参数和旧的参数的差距不会太大。第 $k$ 轮优化函数为：
  $\underset{\theta}{\arg \max }\mathbb{E}_{S\sim d_{\pi_{ {\theta_{k}}}}}\mathbb{E}_{A\sim\pi_{\theta_{k}}(·|S)}\left[\min \left(\frac{\pi_{\theta}(A \mid S)}{\pi_{\theta_{\theta_{k}}}(A \mid S)} A_{\pi_{\theta_{k}}}(S, A), \space\space\operatorname{clip}\left(\frac{\pi_{\theta}(A \mid S)}{\pi_{\theta_{k}}(A \mid S)}, 1-\epsilon, 1+\epsilon\right) A_{\pi_{\theta_{k}}}(S, A)\right)\right]$ 其中 $\text{clip}(x,l,r):=\max(\min(x,r),l)$ ，即把 $x$ 限制在 $[l, r]$ 内，上式中 $\epsilon$ 是一个超参数，表示进行截断的范围。注意 min 操作中的两个选择，后者就是把前者 clip 到 $[1-\epsilon, 1+\epsilon]$ 而已。直接将两个系数的曲线如下画出来
  
  其中绿色虚线是 $\frac{\pi_{\theta}(A \mid S)}{\pi_{\theta_{\theta_{k}}}(A \mid S)}$ ，蓝色虚线是 $\operatorname{clip}\big(\frac{\pi_{\theta}(A \mid S)}{\pi_{\theta_{\theta_{k}}}(A \mid S)}, 1-\varepsilon, 1+\varepsilon\big)$ ，红色实线是优势函数 $A(s_t,a_t)$ 不同取值时 $\min$ 操作选出的系数。以左图 $A (s, a) > 0$ 的情况为例分析
  1. $A (s, a) > 0$ 意味着状态 $s$ 处动作 $a$ 带来了好处，所以为了鼓励 $a$ 出现系数应尽量大，但是不要超过 $1+\epsilon$ （就是说 $s_t$ 处选择 $a_t$ 的概率不要比现在高超过 $1+\epsilon$ 倍），以免策略网络出现 overstep
  2. 系数小于 1 时说明网络还处于欠拟合状态，并没有学到此时应在 $s$ 位置鼓励选择动作 $a$ ，这时就不用限制了。所以注意到红色线有上限而无下限
大量实验表明，PPO-截断总是比 PPO-惩罚表现得更好

2.2 伪代码

PPO-截断的伪代码如下

2.3 用 PPO 方法解决 CartPole 问题

本节实验使用 gym 自带的 CartPole-V0 环境。这是一个经典的一阶倒立摆控制问题，agent 的任务是通过左右移动保持车上的杆竖直，若杆的倾斜度数过大，或者车子离初始位置左右的偏离程度过大，或者坚持时间到达 200 帧，则游戏结束

关于此环境动作状态空间、奖励函数及初始状态分布等的详细说明请参考 CartPole-V0

下面给出完整代码

import gym
import torch
import random
import torch.nn.functional as F
import numpy as np
import matplotlib.pyplot as plt
from tqdm import tqdm
from gym.utils.env_checker import check_env
from gym.wrappers import TimeLimit 

class PolicyNet(torch.nn.Module):
    ''' 策略网络是一个两层 MLP '''
    def __init__(self, input_dim, hidden_dim, output_dim):
        super(PolicyNet, self).__init__()
        self.fc1 = torch.nn.Linear(input_dim, hidden_dim)
        self.fc2 = torch.nn.Linear(hidden_dim, output_dim)

    def forward(self, x):
        x = F.relu(self.fc1(x))             # (1, hidden_dim)
        x = F.softmax(self.fc2(x), dim=1)   # (1, output_dim)
        return x

class VNet(torch.nn.Module):
    ''' 价值网络是一个两层 MLP '''
    def __init__(self, input_dim, hidden_dim):
        super(VNet, self).__init__()
        self.fc1 = torch.nn.Linear(input_dim, hidden_dim)
        self.fc2 = torch.nn.Linear(hidden_dim, 1)

    def forward(self, x):
        x = F.relu(self.fc1(x))
        x = self.fc2(x)
        return x

class PPO(torch.nn.Module):
    def __init__(self, state_dim, hidden_dim, action_range, actor_lr, critic_lr, lmbda, epochs, eps, gamma, device):
        super().__init__()
        self.actor = PolicyNet(state_dim, hidden_dim, action_range).to(device)
        self.critic = VNet(state_dim, hidden_dim).to(device) 
        self.actor_optimizer = torch.optim.Adam(self.actor.parameters(), lr=actor_lr)
        self.critic_optimizer = torch.optim.Adam(self.critic.parameters(), lr=critic_lr)
        
        self.device = device
        self.gamma = gamma
        self.lmbda = lmbda      # GAE 参数
        self.epochs = epochs    # 一条轨迹数据用来训练的轮数
        self.eps = eps          # PPO 中截断范围的参数
        self.device = device        

    def take_action(self, state):
        state = torch.tensor(state, dtype=torch.float).to(self.device)
        state = state.unsqueeze(0)
        probs = self.actor(state)
        action_dist = torch.distributions.Categorical(probs)
        action = action_dist.sample()
        return action.item()

    def compute_advantage(self, gamma, lmbda, td_delta):
        ''' 广义优势估计 GAE '''
        td_delta = td_delta.detach().numpy()
        advantage_list = []
        advantage = 0.0
        for delta in td_delta[::-1]:
            advantage = gamma * lmbda * advantage + delta
            advantage_list.append(advantage)
        advantage_list.reverse()
        return torch.tensor(np.array(advantage_list), dtype=torch.float)

    def update(self, transition_dict):
        states = torch.tensor(np.array(transition_dict['states']), dtype=torch.float).to(self.device)
        actions = torch.tensor(transition_dict['actions']).view(-1, 1).to(self.device)
        rewards = torch.tensor(transition_dict['rewards'], dtype=torch.float).view(-1, 1).to(self.device)
        next_states = torch.tensor(np.array(transition_dict['next_states']), dtype=torch.float).to(self.device)
        dones = torch.tensor(transition_dict['dones'], dtype=torch.float).view(-1, 1).to(self.device)

        td_target = rewards + self.gamma * self.critic(next_states) * (1-dones)
        td_delta = td_target - self.critic(states)
        advantage = self.compute_advantage(self.gamma, self.lmbda, td_delta.cpu()).to(self.device)
        old_log_probs = torch.log(self.actor(states).gather(1, actions)).detach()

        # 用刚采集的一条轨迹数据训练 epochs 轮
        for _ in range(self.epochs):
            log_probs = torch.log(self.actor(states).gather(1, actions))
            ratio = torch.exp(log_probs - old_log_probs)
            surr1 = ratio * advantage
            surr2 = torch.clamp(ratio, 1 - self.eps, 1 + self.eps) * advantage  # 截断
            actor_loss = torch.mean(-torch.min(surr1, surr2))                   # PPO损失函数
            critic_loss = torch.mean(F.mse_loss(self.critic(states), td_target.detach()))
            
            # 更新网络参数
            self.actor_optimizer.zero_grad()
            self.critic_optimizer.zero_grad()
            actor_loss.backward()
            critic_loss.backward()
            self.actor_optimizer.step()
            self.critic_optimizer.step()

if __name__ == "__main__":
    def moving_average(a, window_size):
        ''' 生成序列 a 的滑动平均序列 '''
        cumulative_sum = np.cumsum(np.insert(a, 0, 0)) 
        middle = (cumulative_sum[window_size:] - cumulative_sum[:-window_size]) / window_size
        r = np.arange(1, window_size-1, 2)
        begin = np.cumsum(a[:window_size-1])[::2] / r
        end = (np.cumsum(a[:-window_size:-1])[::2] / r)[::-1]
        return np.concatenate((begin, middle, end))

    def set_seed(env, seed=42):
        ''' 设置随机种子 '''
        env.action_space.seed(seed)
        env.reset(seed=seed)
        random.seed(seed)
        np.random.seed(seed)
        torch.manual_seed(seed)

    state_dim = 4               # 环境观测维度
    action_range = 2            # 环境动作空间大小
    actor_lr = 1e-3
    critic_lr = 1e-2
    num_episodes = 500
    hidden_dim = 128
    gamma = 0.98
    lmbda = 0.95
    epochs = 10
    eps = 0.2
    device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")

    # build environment
    env_name = 'CartPole-v0'
    env = gym.make(env_name, render_mode='rgb_array')
    check_env(env.unwrapped)    # 检查环境是否符合 gym 规范
    set_seed(env, 0)

    # build agent
    agent = PPO(state_dim, hidden_dim, action_range, actor_lr, critic_lr, lmbda, epochs, eps, gamma, device)

    # start training
    return_list = []
    for i in range(10):
        with tqdm(total=int(num_episodes / 10), desc='Iteration %d' % i) as pbar:
            for i_episode in range(int(num_episodes / 10)):
                episode_return = 0
                transition_dict = {
      
                    'states': [],
                    'actions': [],
                    'next_states': [],
                    'next_actions': [],
                    'rewards': [],
                    'dones': []
                }
                state, _ = env.reset()

                # 以当前策略交互得到一条轨迹
                while True:
                    action = agent.take_action(state)
                    next_state, reward, terminated, truncated, _ = env.step(action)
                    next_action = agent.take_action(next_state)
                    transition_dict['states'].append(state)
                    transition_dict['actions'].append(action)
                    transition_dict['next_states'].append(next_state)
                    transition_dict['next_actions'].append(next_action)
                    transition_dict['rewards'].append(reward)
                    transition_dict['dones'].append(terminated or truncated)
                    state = next_state
                    episode_return += reward
                                        
                    if terminated or truncated:
                        break
                    #env.render()

                # 用当前策略收集的数据进行 on-policy 更新
                agent.update(transition_dict)

                # 更新进度条
                return_list.append(episode_return)
                pbar.set_postfix({
      
                    'episode':
                    '%d' % (num_episodes / 10 * i + i_episode + 1),
                    'return':
                    '%.3f' % episode_return,
                    'ave return':
                    '%.3f' % np.mean(return_list[-10:])
                })
                pbar.update(1)

    # show policy performence
    mv_return_list = moving_average(return_list, 29)
    episodes_list = list(range(len(return_list)))
    plt.figure(figsize=(12,8))
    plt.plot(episodes_list, return_list, label='raw', alpha=0.5)
    plt.plot(episodes_list, mv_return_list, label='moving ave')
    plt.xlabel('Episodes')
    plt.ylabel('Returns')
    plt.title(f'{
        agent._get_name()} on CartPole-V0')
    plt.legend()
    plt.savefig(f'./result/{
        agent._get_name()}.png')
    plt.show()

收敛曲线如下所示

可见 PPO 的收敛速度和稳定性都比前文介绍的 REINFORCE with baseline 和 A2C 方法好得多

3. 总结

置信域策略优化（TRPO）是一种利用置信域算法优化策略的 On-policy Online RL 方法，它的优化目标和策略梯度方法相同，每次策略训练仅使用上一轮策略采样的数据，是 policy-based 类算法中十分有代表性的工作之一。直觉性地理解，TRPO 给出的观点是：由于策略的改变导致数据分布的改变，这大大影响深度模型实现的策略网络的学习效果，所以通过划定一个可信任的策略学习区域，保证策略学习的稳定性和有效性
近端策略优化 (PPO) 是 TRPO 的一种改进算法，它在实现上简化了 TRPO 中的复杂计算，并且它在实验中的性能大多数情况下会比 TRPO 更好，因此目前常被用作一种常用的基准算法。需要注意的是，TRPO 和 PPO 都属于在线策略学习算法，即使优化目标中包含重要性采样的过程，但其只是用到了上一轮策略的数据，而不是过去所有策略的数据

本文链接：https://blog.csdn.net/wxc971231/article/details/132214844

原作者删帖不实内容删帖广告或垃圾文章投诉

智能推荐

初始Linux的基本操作_桌面操作系统,手机操作系统,服务器操作系统,嵌入式操作系统-程序员宅基地

文章浏览阅读652次。Linux的相关概念和理解Linux的基本指令ls,cd,pwd, touch, mkdir, whoami, tree， adduser, userdel实现_桌面操作系统,手机操作系统,服务器操作系统,嵌入式操作系统

centos8使用命令修改主机名_centos8stream 关于的名称-程序员宅基地

文章浏览阅读1.1k次。hostnamectl set-hostname layuiFilehostname #查看主机名然后先跳到普通用户再exit退到root看其生效或reboot重启生效_centos8stream 关于的名称

安卓高手之路之图形系统(6)requestLayout的流程_kotlin requestlayout-程序员宅基地

文章浏览阅读1.1w次。当一个View调用requestLayout的时候，会给当前的View设置一个FORCE_LAYOUT标记。由此向ViewParent请求布局。这样从这个View开始向上一直requestLayout。最终到达ViewRootImpl。ViewParent 就是当前的传输链。【参见职责链设计模式】第一步。ViewRootImpl发现请求了布局。那么就会调用measure方_kotlin requestlayout

python opencv 灰度图转换和resize函数的使用_python cv2 resize(img1, ())-程序员宅基地

文章浏览阅读1.7k次。import cv2import numpy as npimg1 = cv2.imread('left.png',1)img1 = cv2.resize(img1, (797,1212))dst1 = cv2.cvtColor(img1,cv2.COLOR_BGR2GRAY)cv2.imwrite('l.png',dst1)img1 = cv2.imread('left.png',1..._python cv2 resize(img1, ())

Socket基础六：基于数据报套接字的网络程序（udp丢包测试）_数据报套接字丢包测试-程序员宅基地

文章浏览阅读656次。Socket基础五：基于数据报套接字的网络程序（udp丢包测试）作者：刘磊 2020.4.27　　　参考书目：《Windows网络编程》刘琰等著一、功能函数1、int udp_server_fun_packetloss(SOCKET s){ int iResult = 0; int count = 0; struct sockaddr_in cliaddr; int addrlen = sizeof(sockaddr_in); char recvline[MAXLINE]; do_数据报套接字丢包测试

国内elasticsearch和kibana镜像、ik分词器_ik分词器国内镜像-程序员宅基地

文章浏览阅读1.6k次。发现华为云有一个好用的国内镜像kibana各个版本下载地址：https://mirrors.huaweicloud.com/elasticsearch/kibana各个版本下载地址：https://mirrors.huaweicloud.com/kibana/ik分词器各个版本下载地址：https://github.com/medcl/elasticsearch-analysis-ik/releases亲测下载速度非常快..._ik分词器国内镜像

随便推点

Coursera—Andrew Ng机器学习—课程笔记 Lecture 5 Octave Tutorial-程序员宅基地

文章浏览阅读575次。定义函数 squareThisNumber(x)，内容如下：

超级应用 - 免费应用内测托管平台|APP应用分发平台|iOS应用分发|Android应用分发|免费应用内测托管平台源码下载_awjd1.tv-程序员宅基地

文章浏览阅读4k次。网站标题：超级应用 - 免费应用内测托管平台|APP应用分发平台|iOS应用分发|Android应用分发|免费应用内测托管平台源码下载网站关键词：超级应用(www.awwjd.com) 为您提供测试测试应用、应用托管、分发测试、兼容测试等,为客户提供APP托管和免费的下载分发渠道!源码下载网站描述：超级应用,分发平台,内测平台,内测分发,app分发,ios企业签名,ios分发平台,ios免签封装,苹果企业签名,苹果超级签名,免签封装,应用打包,苹果App下载,安卓应用,苹果应用,扫码下载,UDID,iO_awjd1.tv

阿里数据库内核月报：2017年05月-程序员宅基地

文章浏览阅读45次。# 01MySQL·引擎特性·InnoDBBufferPool# 02AliSQL·特性介绍·动态加字段# 03PgSQL·特性分析·数据库崩溃恢复（上）# 04MySQL·答疑解惑·MySQL的那些网络超时错误# 05HybridDB·最佳实践·HybridDB数据合并的方法与原理...

FPGA时序约束、时序分析（一）-程序员宅基地

文章浏览阅读163次。很多人询问关于约束、时序分析的问题，比如：如何设置setup，hold时间？如何使用全局时钟和第二全局时钟（长线资源）？如何进行分组约束？如何约束某部分组合逻辑？如何通过约束保证异步时钟域之间的数据交换可靠？如何使用I/O逻辑单元内部的寄存器资源？如何进行物理区域约束，完成物理综合和物理实现？为了解决大家的疑难，我们将逐一讨论这些问题。（注：以下主要设计时序约束）A 时序约束的概念和基本策略..._如何约束fpga寄存器到pad的延时

2024年软件测试工具总结 —— 性能测试工具_magicotp，软件测试基础入门_web页面性能测试工具-程序员宅基地

文章浏览阅读512次，点赞19次，收藏12次。WebLOAD是一款针对Web应用程序的企业级负载和性能测试工具，提供性能、完整性和可伸缩性测试等功能，能够同时模拟数千个用户，因此您可以测试重流量负载，并报告应用程序中的弱点、约束和性能瓶颈。它是一个以开发人员为中心（当然，测试人员亦可以使用，因为真的很方便），免费和开源的负载测试工具，旨在使性能测试具有生产力和令人愉悦的体验，可最大程度地减少系统资源的消耗。在线性能监控是指借助监控工具，监控系统性能的实际数据，因为是真实数据，比研发环境中通过工具产生负载得到的测试结果更客观，更有分析价值。_web页面性能测试工具

Java进制转换, 数据类型, 运算符_java 32进制递增-程序员宅基地

文章浏览阅读511次。 1:进制转换转换规则:先把数据的每一位上的系数乘以对应基数的次幂(低位从零开始)，然后相加即可十进制到其他进制规则：除基取余，直到商为0，最后将余数反转十进制到二进制: 除2取余，直到商为0，最后将余数反转例: 十进制13对应的二进制数据是1101 二进制到十进制的技巧(8421码)十进制到八进制: 除8取余，直到商为0，最后将余数反转例: ..._java 32进制递增