策略梯度算法

基于策略的算法

对策略参数化，直接对策略进行优化。

笔记

Value-based RL

先学习价值函数V或Q，根据价值函数间接指导策略改进。

Policy-based RL

对策略进行参数化，直接对策略进行优化。没有V或Q做中间商。
优点
- 可处理连续动作空间
- 直接使用神经网络进行建模

假设策略 $π_{θ} (a ∣ s)$ ，是关于 $θ$ 的连续可微函数；用梯度上升算法 直接对策略参数 $θ$ 进行优化。

使目标函数 $J (θ)$ 最大， $J (θ)$ 是该策略下所有轨迹回报的期望值。

J (θ) = E_{τ \sim p_{θ} (τ)} [R (τ)] = \sum_{τ} p_{θ} (τ) \cdot R (τ)

目标函数

轨迹概率 $p_{θ} (τ)$

\begin{array}{l} p_{θ} (τ) & = p (s_{0}) \cdot π_{θ} (a_{0} ∣ s_{0}) p (s_{1} ∣ s_{0}, a_{0}) \cdot π_{θ} (a_{1} ∣ s_{1}) p (s_{2} ∣ s_{1}, a_{1}) \dots \\ = p (s_{0}) \prod_{t = 0}^{T} \underset{选 择 动 作}{\underset{⏟}{p_{θ} (a_{t} ∣ s_{t})}} \cdot \underset{状 态 转 移}{\underset{⏟}{p (s_{t + 1} ∣ s_{t}, a_{t})}} \end{array}

目标函数 $J (θ)$

策略的价值期望/期望奖励，所有轨迹回报的期望值。
调整演员内部参数 $θ$ ，使得 $R_{θ}$ 的期望值最大

J (θ) = {\bar{R}}_{π_{θ}} = E_{τ \sim p_{θ} (τ)} [R (τ)] = \sum_{τ} p_{θ} (τ) \cdot R (τ)

轨迹奖励 $R (τ), G_{t}, G_{t}^{n}$

$R (τ)$ 是一个随机变量，非标量，和策略参数 $θ$ 无关。
- 在同一状态下采取的动作不一定相同，策略依概率选择，有随机性

R (τ) = G (τ) = r_{0} + γ r_{1} + \dots γ^{T} r_{T} = \sum_{t = 1}^{T} γ^{t - 1} r_{t}

$G_{t}$ ：某条轨迹从时刻t开始到结束的累计奖励

G_{t} = \sum_{k = t + 1}^{T} γ^{k - t - 1} \cdot r_{k} = r_{t + 1} + γ \cdot G_{t + 1}

$G_{t}^{n}$ ：第n条轨迹从t时刻开始到结束的累计奖励

G_{t}^{n} = \sum_{k = t + 1}^{T_{n}} γ^{k - t - 1} \cdot r_{k}^{n} = r_{k}^{n} + γ G_{t + 1}^{n}

G由交互得到，非常不稳定，方差很大。TD&MC 方差和偏差

轨迹

目标函数，期望奖励

策略梯度定义

目标函数

J (θ) = \sum_{τ} R (τ) \cdot p_{θ} (τ) = E_{τ \sim p_{θ} (τ)} [R (τ)]

策略梯度定义

\nabla J (θ) = \sum_{τ} R (τ) \cdot \nabla p_{θ} (τ)

策略梯度推导结果

\begin{array}{l} \nabla J (θ) = \frac{1}{N} \sum_{n = 1}^{N} \sum_{t = 0}^{T_{n}} G (τ^{n}) \cdot \nabla \log p_{θ} (a_{t}^{n} ∣ s_{t}^{n}) \end{array}

\begin{array}{l} \nabla J (θ) = \frac{1}{N} \sum_{n = 1}^{N} \sum_{t = 0}^{T_{n}} \underset{权 重}{\underset{⏟}{G (τ^{n})}} \cdot \underset{动 作 a 的 梯 度}{\underset{⏟}{\nabla \log p_{θ} (a_{t}^{n} ∣ s_{t}^{n})}} \end{array}

策略梯度推导过程

两个对数技巧

对数定义

对数定义： $\log (x) = \log_{e} (x)$ ，国际新标 $\log$ 是以e为底的对数

y = \log (x) \to e^{y} = x

对数导数

f (x) = \log (x) \to f^{'} (x) = \log^{'} (x) = \frac{1}{x}

导数链式法则

g (x) = \log f (x) \to g^{'} (x) = \log^{'} (f (x)) = \frac{1}{f (x)} \cdot f^{'} (x)

对数乘法公式

\log (a b) = \log a + \log b

对数微分技巧‼️

\frac{\partial \log f (x)}{\partial x} = \frac{1}{f (x)} \cdot f^{'} (x) \to \nabla \log f (x) = \frac{1}{f (x)} \cdot \nabla f (x)

\nabla f (x) = f (x) \cdot \nabla \log f (x)

策略梯度推导过程

1. 对数拆解梯度 $\nabla p_{θ} (τ)$

对数微分，拆解为期望形式

\begin{array}{l} \nabla J (θ) & = \sum_{τ} R (τ) \cdot \nabla p_{θ} (τ) \\ = \sum_{τ} R (τ) \cdot p_{θ} (τ) \cdot \nabla \log p_{θ} (τ) \\ = E_{τ \sim p_{θ} (τ)} [R (τ) \cdot \nabla \log p_{θ} (τ)] \end{array}

推导结果

\begin{array}{l} \nabla J (θ) = E_{τ \sim p_{θ} (τ)} [R (τ) \cdot \nabla \log p_{θ} (τ)] \end{array}

2. 细拆轨迹概率梯度 $\nabla \log p_{θ} (τ)$

代入轨迹概率的 动作策略 $π$ 和状态转移概率 $p$ ，去掉无关项

\begin{array}{l} \nabla \log p_{θ} (τ) & = \nabla \log (p (s_{0}) \prod_{t = 0}^{T} π (a_{t} ∣ s_{t}) \cdot p (s_{t + 1} ∣ s_{t}, a_{t})) \\ = \nabla (\log p (s_{0}) + \sum_{t = 0}^{T} \log p_{θ} (a_{t} ∣ s_{t}) + \sum_{t = 0}^{T} \log p (s_{t + 1} ∣ s_{t}, a_{t})) \\ = \underset{θ 无 关, 0}{\underset{⏟}{\nabla \log p (s_{0})}} + \underset{θ 有 关, 非 0}{\underset{⏟}{\nabla \sum_{t = 0}^{T} \log p_{θ} (a_{t} ∣ s_{t})}} + \underset{θ 无 关, 0}{\underset{⏟}{\nabla \sum_{t = 0}^{T} \log p (s_{t + 1} ∣ s_{t}, a_{t})}} \\ = \sum_{t = 0}^{T} \nabla \log p_{θ} (a_{t} ∣ s_{t}) \end{array}

推导结果

\begin{array}{l} \nabla \log p_{θ} (τ) = \sum_{t = 0}^{T} \nabla \log p_{θ} (a_{t} ∣ s_{t}) \end{array}

3. 采样计算策略梯度

采样N条轨迹、代回细拆项求解最终公式

\begin{array}{l} \nabla J (θ) & = E_{τ \sim p_{θ} (τ)} [R (τ) \cdot \nabla \log p_{θ} (τ)] \\ = \frac{1}{N} \sum_{n = 1}^{N} R (τ) \cdot \nabla \log p_{θ} (τ) \\ = \frac{1}{N} \sum_{i = 1}^{N} R (τ^{n}) \cdot \sum_{t = 0}^{T_{n}} \nabla \log p_{θ} (a_{t}^{n} ∣ s_{t}^{n}) \\ = \frac{1}{N} \sum_{n = 1}^{N} \sum_{t = 0}^{T_{n}} G (τ^{n}) \cdot \nabla \log p_{θ} (a_{t}^{n} ∣ s_{t}^{n}) \end{array}

推导结果

\begin{array}{l} \nabla J (θ) = \frac{1}{N} \sum_{n = 1}^{N} \sum_{t = 0}^{T_{n}} G (τ^{n}) \cdot \nabla \log p_{θ} (a_{t}^{n} ∣ s_{t}^{n}) \end{array}

参数学习过程

策略梯度学习过程

数据采样

利用 $θ$ 参数的actor和环境交互，采集n条样本，收集每条样本的奖励。
每个样本只使用一次
- 模型更新完成后，需重新采样才能更新模型。

梯度计算

为每一对 $(s, a)$
- 计算对数概率 $\log p_{θ} (a_{t}^{n} ∣ s_{t}^{n})$ ，
- 为对数概率取梯度，并乘以权重 ，即回报 $G (τ^{n})$
代入策略梯度函数，求出整体梯度

\begin{array}{l} \nabla J (θ) = \frac{1}{N} \sum_{n = 1}^{N} \sum_{t = 0}^{T_{n}} G (τ^{n}) \cdot \nabla \log p_{θ} (a_{t}^{n} ∣ s_{t}^{n}) \end{array}

梯度上升法做参数更新

最大化目标函数 $J (θ)$

θ \leftarrow θ + α \cdot \nabla J (θ)

策略梯度loss

策略梯度相关loss

策略梯度loss

传统交叉熵/监督学习loss

预测值，有真实值，做交叉熵评判准确程度

H (p, q) = - \sum_{x \in X} p (x) \cdot \log q (x)

H (y^{'}, y) = - \sum_{i} y_{i, 真 实}^{'} \cdot \log y_{i, 预 测}

H (y^{'}, y) = - \sum_{i} \log y_{i, 预 测}

策略梯度loss-轨迹粒度

轨迹回报越高、希望轨迹概率也越高，即二者同分布，使用交叉熵来衡量，非常合适
$R (τ)$ 代表实际回报，代替真实分布

L (θ) = - \sum_{τ \sim p_{θ} (τ)} R (τ) \cdot \log p_{θ} (τ)

策略梯度loss-动作粒度

预测动作，但并没有真实动作作为参考
所以使用奖励回报/优势函数等作为权重，表示动作的好坏。
- 动作回报越小，表明动作 $a_{t}$ 不好，loss权重应该降低，优化粒度小一点
- 动作回报越大，表明动作 $a_{t}$ 较好，loss权重应该增加，优化粒度大一点

l o s s = - G_{t} \cdot \log p_{θ} (a_{t} ∣ s_{t})

策略函数设计

随机策略：输入状态s，输出对应动作概率分布

离散动作策略函数

Softmax计算概率

$ϕ (s, a)$ 是模型输出前面一层，计算softmax得出概率

π_{θ} (s ∣ a) = p_{θ} (a ∣ s) = \frac{e^{ϕ (s, a)}}{\sum_{a^{'} \in A} e^{ϕ (s, a^{'})}}

一般 $ϕ (s, a)$ 和softmax合在一起

最终策略梯度如下，一般写作logits_p，对应的 $p_{θ} (s, a)$ 叫做 probs，

\nabla_{θ} \log π_{θ} (s ∣ a) = \log p_{θ} (s, a) = l o g i t s_p

连续动作策略函数

策略动作从高斯分布得出

在模型最后一层输出均值和方差两个值，来构建一个高斯分布，进行采样即可。

N (ϕ (s) θ, σ^{2})

\nabla_{θ} \log π_{θ} (s ∣ a) = \frac{(a - ϕ (s) θ) \cdot ϕ (s)}{σ^{2}}

策略梯度权重设计

策略梯度权重多种形式

策略梯度形式

\begin{array}{l} \nabla J (θ) = \frac{1}{N} \sum_{n = 1}^{N} \sum_{t = 0}^{T_{n}} \underset{权 重}{\underset{⏟}{Ψ_{t}}} \cdot \underset{动 作 a 的 梯 度}{\underset{⏟}{\nabla \log p_{θ} (a_{t}^{n} ∣ s_{t}^{n})}} \end{array}

权重 $Ψ_{t}$ 的7种表现形式

$G (τ)$ 轨迹总奖励

R (τ) = G (τ) = r_{0} + γ r_{1} + \dots γ^{T} r_{T} = \sum_{t = 1}^{T} γ^{t - 1} r_{t}

$G_{t}$ 动作 $a_{t}$ 的奖励

G_{t} = \sum_{k = t + 1}^{T} γ^{k - t - 1} \cdot r_{k} = r_{t + 1} + γ \cdot G_{t + 1}

$G_{t} - b (s_{t})$ 动作 $a_{t}$ 奖励减去偏移量

G_{t} - b (s_{t})

$Q_{π} (s_{t}, a_{t})$ 状态动作值函数

Q_{π} (s_{t}, a_{t})

$A_{π} (s_{t}, a_{t})$ 优势函数，A2C 优势的理解，PG优势技巧

A_{π} (s_{t}, a_{t}) = Q_{π} (s_{t}, a_{t}) - V_{π} (s_{t})

TD误差

A_{π} (s_{t}, a_{t}) = \underset{TD Error}{\underset{⏟}{r_{t + 1} + γ V_{π} (s_{t + 1}) - V_{π} (s_{t})}}

GAE

A_{t}^{G A E (γ, λ)} (s_{t}, a_{t}) = \sum_{l = 0}^{\infty} (γ λ)^{l} \cdot δ_{t + l}

A_{t}^{G A E (γ, λ)} (s_{t}, a_{t}) = \sum_{l = 0}^{\infty} (γ λ)^{l} \cdot (r_{t + l} + γ V (s_{t + l + 1}) - V (s_{t + l}))

策略梯度信号选择问题

AC 存在的问题

ActorCritic 存在的问题 (TRPO/PPO来解决)

更新步长选择困难症
每次梯度更新时，都对策略做采样。
- 导致训练过程比较慢、采样随机性导致可能朝着错误方向更新。
TD Error 估计优势函数是有偏的

策略梯度信号选择-单步奖励+轨迹回报

1. 单步奖励 $r_{t}$

缺点：太短视，没看长期回报。永远学不会先苦后甜的策略。

2. 完整轨迹回报 $G (τ)$

\begin{array}{l} \nabla J (θ) = \frac{1}{N} \sum_{n = 1}^{N} \sum_{t = 0}^{T_{n}} \underset{权 重}{\underset{⏟}{G (τ^{n})}} \cdot \underset{动 作 a 的 梯 度}{\underset{⏟}{\nabla \log p_{θ} (a_{t}^{n} ∣ s_{t}^{n})}} \end{array}

高方差
权重很大大于0：
- 所有采样到的动作概率都会提升且 好坏区分度不明显
- 没被采样到的动作，即使可能很好，概率也会下降
  - 因为提升了采样动作，未采样动作就会下降。
所有动作a权重都一样：不公平！
- 有的动作好，贡献多，需提升概率；有的动作差，贡献少，需要降低概率。

3. 总回报 $G_{t}$

缺点：高方差、权重恒大于0
举例
- 某游戏每步奖励在[90,110]区间，任何轨迹的总回报 $G_{t}$ 都是非常大的正数。
- 状态 $s$ 下，有2个动作：好动作 $a_{1}$ 、坏动作 $a_{2}$
  - 执行 $a_{1}$ 后：总回报 1010；更新 $a_{1}$ 时，+1010，非常强的正信号。
  - 执行 $a_{2}$ 后：总回报 1005；更新 $a_{2}$ 时，+1005，同样非常强的正信号。
导致所有被采样的动作概率都会提升。
- 会导致训练过程不稳定、 收敛很慢。
  - 奖励信号都很大，算法很难稳定分辨 出 $a_{1}$ 比 $a_{2}$ “好了一点点”。
  - 基础量是1000，这个5分的差异，在巨大的更新步长面前几乎可以忽略不计。
导致未被采样动作的概率会下降。
- 例如 $a_{3}$ 是一个很好的动作，但由于没有被采样到
  - 提升了 采样到的 $a_{1}, a_{2}$ 的概率，就自动降低了 $a_{3}$ 的概率。

策略梯度信号选择-优势函数

4. 基线/优势函数

解决高方差问题，引入并减去基线/状态价值函数 $V_{π} (s_{t})$

A_{π} (s_{t}, a_{t}) = Q_{π} (s_{t}, a_{t}) - V_{π} (s_{t})

A_{π} (s_{t}, a_{t}) = \underset{TD Error}{\underset{⏟}{r_{t + 1} + γ V_{π} (s_{t + 1}) - V_{π} (s_{t})}}

例子
- 游戏例子
$\begin{array}{l} a_{1} & A (s, a_{1}) = 1010 - 1000 = 10 & 清晰的正信号 \\ a_{2} & A (s, a_{2}) = 1005 - 1000 = 5 & 较弱的正信号 \\ a_{4} & A (s, a_{4}) = 990 - 1000 = - 10 & 清晰的负信号 \end{array}$
- 考试例子
  - 总回报 $G_{t}$ ：你考了95分
  - 状态价值 $V (s)$ 基线， 平均98分；
  - 你的优势 $A (s_{a})$ ：95-98=-3分，低于平均水平，学习动作 $a$ 需要调整。
低方差、高偏差

5. GAE

平衡方差和偏差

策略梯度重要技巧

添加基线/优势函数

优势相关笔记

添加基线/优势函数

权重添加基线/优势函数

背景

解决权重 $R (τ)$ 恒大于0带来的问题(未采样动作概率更新+方差大。)
加上基线，使其有正有负，降低方差。

核心思想

添加基线函数b，使用新权重 $R (τ) - b$ ，有正有负
- $R (τ) - b > 0$ ：超过基线，让 $(s, a)$ 概率上升
- $R (τ) - b < 0$ ：低于基线，让 $(s, a)$ 概率下降

\begin{array}{l} \nabla J (θ) = \frac{1}{N} \sum_{n = 1}^{N} \sum_{t = 0}^{T_{n}} \underset{基 线 权 重}{\underset{⏟}{(R (τ^{n}) - b)}} \cdot \underset{动 作 a 的 梯 度}{\underset{⏟}{\nabla \log p_{θ} (a_{t}^{n} ∣ s_{t}^{n})}} \end{array}

$R - b$ ：也称为优势函数

基线函数b的选择

平均值 $b = E [G (τ)], V (s)$ ：不断把 $G (τ)$ 值记录下来，求平均即可
R和b相关性越高，方差越小，公式推导出来的。

降低方差方法的公式推导

目的

估计 $E [f]$ ，构造新估计量 $\hat{f}$ ，使得
- 无偏性： $E [f] = E [\hat{f}]$ ，
- 减小方差： $V a r (\hat{f}) < V a r (f)$

核心方法

构建 $\hat{f}$ ：引入一个与 $f$ 相关的辅助函数 $g$ ， $E [g]$ 已知。

\hat{f} = f - α (g - E [g])

保证无偏性推导期望：推导可知 $E [\hat{f}] = E [f]$

E [\hat{f}] = E [f] - α \cdot E (g - E [g]) = E [f] - α \cdot (E [g] - E [g]) = E [f]

推导方差供减小优化使用 $Var (\hat{f})$ ：方差、协方差

\begin{array}{l} V a r (\hat{f}) & = Var (f - α (g - E [g])) \\ = Var (f - α \cdot g) \\ = Var (f) + α^{2} Var (g) - 2 α \cdot Cov (f, g) \end{array}

最小方差求解：求解极值点 $α$ 取值
- 方差恒为正，是常数；根据上式可知 $V a r (\hat{f})$ 是关于 $α$ 的凹函数，必然存在极小值
- 求导数并使其为0，求解出最小值时的取值。

\begin{array}{l} \frac{\partial V a r (\hat{f})}{\partial α} = 2 α V a r (g) - 2 C o v (f, g) \\ 令 其 = 0 ， 得 : α = \frac{C o v (f, g)}{V a r (g)} \end{array}

最小方差求解：代回极值点，求解出最小值

\begin{array}{l} V a r (\hat{f}) & = V a r (f) + \frac{C o v^{2} (f, g)}{V a r (g)} - 2 \frac{C o v^{2} (f, g)}{V a r (g)} \\ = V a r (f) - \frac{C o v^{2} (f, g)}{V a r (g)} \\ = V a r (f) (1 - \frac{C o v^{2} (f, g)}{V a r (f) V a r (g)}) \\ = V a r (f) \cdot (1 - \underset{相 关 系 数}{\underset{⏟}{ρ^{2} (f, g))}}) \end{array}

结论

方差极小值： $f$ 和 $g$ 的相关性越高， $V a r (\hat{f})$ 越小

分配合适的分数

优势相关笔记

分配合适的分数

背景

解决同一轨迹内，所有动作权重都相同的问题
使其有区分度，鼓励好的动作，抑制差的动作

方法1：使用动作时刻t后面的奖励

动作 $(s_{t}, a_{t})$ 的权重：
- 不用时刻0到结束的总奖励，而用动作时刻t开始到结束的总奖励
- 即不用 $G (τ)$ ，改用 $G_{t}$ 作为 $(s_{t}, a_{t})$ 的权重

\begin{array}{l} \nabla J (θ) = \frac{1}{N} \sum_{n = 1}^{N} \sum_{t = 0}^{T_{n}} \underset{基 线 权 重}{\underset{⏟}{(G_{t}^{n} - b)}} \cdot \underset{动 作 a 的 梯 度}{\underset{⏟}{\nabla \log p_{θ} (a_{t}^{n} ∣ s_{t}^{n})}} \end{array}

G_{t}^{n} = \sum_{k = t + 1}^{T_{n}} γ^{k - t - 1} \cdot r_{k}^{n} = r_{k}^{n} + γ G_{t + 1}^{n}

方法2：使用优势函数 $A^{θ} (s_{t}, a_{t})$

优势函数 $A^{θ} (s_{t}, a_{t})$ ：在状态 $s$ ，采取动作 $a$ ，相对于其他动作的优势
优势函数 $A^{θ} (s_{t}, a_{t})$ ：一般由网络估计出来，称为critic评论员

\begin{array}{l} \nabla J (θ) = \frac{1}{N} \sum_{n = 1}^{N} \sum_{t = 0}^{T_{n}} \underset{动 作 优 势 函 数}{\underset{⏟}{A^{θ} (s_{t}^{n}, a_{t}^{n})}} \cdot \underset{动 作 a 的 梯 度}{\underset{⏟}{\nabla \log p_{θ} (a_{t}^{n} ∣ s_{t}^{n})}} \end{array}

不同动作贡献不同，权重也应该不同：