(18年笔记)基于策略函数的学习方法

基于策略函数的学习方法

背景

强化学习目标

基于策略函数的学习方法

无需值函数直接优化策略，参数化的策略处理可以处理连续状态和动作
基于梯度的学习、无梯度的学习

策略梯度

策略梯度概览

1. 核心思想

假设策略 $π_{θ} (a ∣ s)$ 是一个关于 $θ$ 的连续可微函数 (策略连续可微假设)
用梯度上升的方法优化参数 $θ$ 使目标函数 $J (θ)$ 最大。 策略梯度是一种基于梯度的RL方法。

J (θ) = \int p_{θ} (τ) \cdot G (τ) d τ

2. 总结核心3个推导步骤

代入 $J (θ)$ 目标函数，算导数

\frac{\partial J (θ)}{\partial θ} ≜ E_{τ \sim p_{θ} (τ)} [\frac{\partial}{\partial θ} \log p_{θ} (τ) \cdot G (τ)]

代入策略 $π$ 和状态转移概率 $p (s_{t + 1} | s_{t}, a_{a})$ ，细分偏导数

\frac{\partial}{\partial θ} \log p_{θ} (τ) = \sum_{t = 0}^{T - 1} \frac{\partial}{\partial θ} \log π_{θ} (a_{t} ∣ s_{t})

代入轨迹回报 $G (τ)$ 做分解，算出策略梯度 ⭐

\begin{aligned} \frac{\partial J (θ)}{\partial θ} & = E_{τ \sim p_{θ} (τ)} [\sum_{t = 0}^{T - 1} (\frac{\partial}{\partial θ} \log π_{θ} (a_{t} ∣ s_{t}) \cdot γ^{t} G (τ_{t : T}))] \end{aligned}

策略梯度详细推导过程

策略梯度推导 (目标函数 $J (θ)$ 关于策略参数 $θ$ 的导数推导)

代入 $J (θ)$ ，求导数转换成期望形式
- 参数 $θ$ 的优化方向：使总回报越大的轨迹 $τ$ 概率也越大, $G (τ) ↑ \Rightarrow p_{θ} (τ) ↑$

\begin{array}{l} \frac{\partial J (θ)}{\partial θ} & = \frac{\partial}{\partial θ} \int p_{θ} (τ) G (τ) d τ \\ = \int (\frac{\partial}{\partial θ} p_{θ} (τ)) \cdot G (τ) d τ \\ = \int \underset{梯 度 写 成 期 望 形 式 ， 便 于 蒙 特 卡 罗 估 计}{\underset{⏟}{p_{θ} (τ) \cdot (\frac{1}{p_{θ} (τ)} \cdot \frac{\partial p_{θ} (τ)}{\partial θ}) \cdot G (τ) d τ}} \\ = \int p_{θ} (τ) \cdot \underset{对 数 恒 等 式}{\underset{⏟}{(\frac{\partial}{\partial θ} \log p_{θ} (τ))}} \cdot G (τ) d τ \\ = E_{τ \sim p_{θ} (τ)} [\frac{\partial}{\partial θ} \log p_{θ} (τ) \cdot G (τ)] \end{array}

\begin{array}{l} 导 数 ： & f (x) = \log (x), f^{'} (x) = \frac{1}{x} \\ 对 数 恒 等 式 ： & \frac{\partial}{\partial θ} \log f (θ) = \frac{1}{f (θ)} \cdot \frac{\partial f (θ)}{\partial θ} \end{array}

代入策略 $π$ 和环境状态转移概率 $p (s_{t + 1} ∣ s_{t}, a_{t})$ ，进一步细分偏导数，梯度只和策略相关
$\begin{array}{l} \frac{\partial}{\partial θ} \log p_{θ} (τ) & = \frac{\partial}{\partial θ} \log (\underset{初始状态}{\underset{⏟}{p (s_{0})}} \cdot \prod_{t = 0}^{T - 1} \underset{执行动作}{\underset{⏟}{π_{θ} (a_{t} ∣ s_{t})}} \cdot \underset{状态改变}{\underset{⏟}{p (s_{t + 1} ∣ s_{t}, a_{t})}}) \\ = \frac{\partial}{\partial θ} (\underset{θ 求导为 0}{\underset{⏟}{\log p (s_{0})}} + \sum_{t = 0}^{T - 1} \log π_{θ} (a_{t} ∣ s_{t}) + \underset{θ 求导为 0}{\underset{⏟}{\sum_{t = 0}^{T - 1} \log p (s_{t + 1} ∣ s_{t}, a_{t})}}) \\ = \sum_{t = 0}^{T - 1} \frac{\partial}{\partial θ} \log π_{θ} (a_{t} ∣ s_{t}) \end{array}$
代入 $G (τ)$ 分解回报，算出策略梯度

\begin{array}{l} \frac{\partial J (θ)}{\partial θ} & = E_{τ \sim p_{θ} (τ)} [\frac{\partial}{\partial θ} \log p_{θ} (τ) \cdot G (τ)] \\ = E_{τ \sim p_{θ} (τ)} [\sum_{t = 0}^{T - 1} \frac{\partial}{\partial θ} \log π_{θ} (a_{t} ∣ s_{t}) \cdot G (τ)] \\ = E_{τ \sim p_{θ} (τ)} [\sum_{t = 0}^{T - 1} \frac{\partial}{\partial θ} \log π_{θ} (a_{t} ∣ s_{t}) \cdot (\underset{r_{0} \sim r_{t - 1}}{\underset{⏟}{G (τ_{0 : t})}} + \underset{r_{t} \sim r_{T}}{\underset{⏟}{γ^{t} \cdot G (τ_{t : T})}})] \\ = E_{τ \sim p_{θ} (τ)} [\underset{为 0 ， a_{t} 只 影 响 后 面 ， 不 贡 献 梯 度}{\underset{⏟}{\sum_{t = 0}^{T - 1} \frac{\partial}{\partial θ} \log π_{θ} (a_{t} ∣ s_{t}) \cdot G (τ_{0 : t})}} + \underset{不 为 0}{\underset{⏟}{\sum_{t = 0}^{T - 1} \frac{\partial}{\partial θ} \log π_{θ} (a_{t} ∣ s_{t}) \cdot G (τ_{t : T})}}] \\ = E_{τ \sim p_{θ} (τ)} [\sum_{t = 0}^{T - 1} \frac{\partial}{\partial θ} \log π_{θ} (a_{t} ∣ s_{t}) \cdot γ^{t} \cdot G (τ_{t : T})] \end{array}

其中 $G (τ)$ 分解为2部分 ：0-t的累计回报 和 t到T的累计回报，
- 注意：时刻t的动作 $a_{t}$ 只能影响t时刻之后的奖励，不能影响t时刻之前的奖励。

G (τ) = \sum_{t = 0}^{T - 1} γ^{t} \cdot r_{t + 1} = G (τ_{0 : t}) + γ^{t} \cdot G (τ_{t : T})

$G (τ_{t : T})$ ：时刻t作为起始时刻到时刻T，收到的总回报

G (τ_{t : T}) = \sum_{k = t}^{T - 1} γ^{k - t} \cdot r_{k + 1}

REINFORCE算法

REINFORCE

核心思想

策略梯度中，通过当前策略 $π_{θ}$ 随机采样N条轨迹来近似期望。 $τ^{(1)}, \dots, τ^{(N)}$

\begin{array}{l} \frac{\partial J (θ)}{\partial θ} & \approx \frac{1}{N} \sum_{n = 1}^{N} (\sum_{t = 0}^{T - 1} \underset{每 个 时 刻 的 策 略 梯 度}{\underset{⏟}{\frac{\partial}{\partial θ} \log π_{θ} (a_{t}^{(n)} | s_{t}^{(n)}) \cdot γ^{t} G (τ_{t : T}^{(n)})}}) \end{array}

结合随机梯度上升算法，每次采样1条轨迹，并计算每个时刻的梯度，来更新参数

算法步骤

输入：状态空间 $S$ ，动作空间 $A$ ，可微分策略函数 $π_{θ} (a ∣ s)$ ，折扣率 $γ$ ，学习率 $α$
初始化：随机初始化参数 $θ$ ，训练直到收敛
根据 $π_{θ} (a ∣ s)$ 采样一条轨迹

τ = s_{0}, a_{0}, s_{1}, a_{1}, \dots, s_{T - 1}, a_{T - 1}, s_{T}

在每个时刻计算回报 $G (τ_{t : T})$ 、策略梯度，并更新策略函数参数 (0~T)

θ \leftarrow θ + α \cdot \underset{每 个 时 刻 的 策 略 梯 度}{\underset{⏟}{\frac{\partial}{\partial θ} \log π_{θ} (a_{t} | s_{t}) \cdot γ^{T} G (τ_{t : T})}}

缺点

不同路径的方差很大，导致训练不稳定；
需要根据一个策略采集一条完整的轨迹。

带基准线的REINFORCE算法

带基准线的REINFORCE 算法思想

背景

REINFORCE缺点：不同轨迹样本 $G (τ)$ 方差很大，导致训练不稳定

核心思想

使用基准函数 $b (s_{t})$ 去减小策略梯度的方差，基准函数和 $a_{t}$ 无关
- 准确是减少 $G (τ)$ 带来的方差。
每个时刻的策略梯度：引入基准函数之前

\begin{array}{l} \frac{\partial J_{t} (θ)}{\partial θ} & = E_{s_{t}, a_{t}} [\frac{\partial}{\partial θ} \log π (a_{t} ∣ s_{t}) \cdot γ^{t} G (τ_{t : T})] \\ = E_{s_{t}, a_{t}} [\nabla_{θ} \log π (a_{t} ∣ s_{t}) \cdot γ^{t} G (τ_{t : T})] \end{array}

每个时刻的策略梯度：引入基准函数之后

\frac{\partial {\hat{J}}_{t} (θ)}{\partial θ} = E_{s_{t}, a_{t}} [\frac{\partial}{\partial θ} \log π (a_{t} ∣ s_{t}) \cdot γ^{t} \underset{基 准 函 数 ， 减 小 G 方 差}{\underset{⏟}{(G (τ_{t : T}) - b (s_{t}))}}]

由于 $b (s_{t})$ 和 $a_{t}$ 无关 ，通过推导可知新旧策略梯度一致，保证了无偏性

\frac{\partial \hat{J} (θ)}{\partial θ} = \frac{\partial J (θ)}{\partial θ}

由下文降低方差的方法推导可知： $b (s_{t})$ 和 $G (τ_{t : T})$ 越相关，方差越小，就越好

基准函数的选择

很自然可以选择值函数作为基准函数 ： $b (s_{t}) = V^{π_{θ}} (s_{t})$ 。
但由于值函数未知，可用学习参数 $V_{ϕ} (s_{t})$ 来近似值函数
用参数估计，目标函数如下，和Q网络参数逼近很像。
$L (ϕ ∣ s_{t}, π_{θ}) = (V^{π_{θ}} (s_{t}) - V_{ϕ} (s_{t}))^{2}$
用蒙特卡罗来估计 $V^{π_{θ}} (s_{t})$
最终策略函数参数 $θ$ 的梯度如下

\frac{\partial {\hat{J}}_{t} (θ)}{\partial θ} = E_{s_{t}, a_{t}} [\frac{\partial}{\partial θ} \log π (a_{t} ∣ s_{t}) \cdot γ^{t} \underset{基 准 函 数 ， 减 小 G 方 差}{\underset{⏟}{(G (τ_{t : T}) - V_{ϕ} (s_{t}))}}]

带基准线REINFORCE算法步骤

算法步骤

输入：状态空间 $S$ ，动作空间 $A$ ，可微分策略函数 $π_{θ} (a ∣ s)$ ，可微分状态值函数 $V_{ϕ} (s)$ ，折扣率 $γ$ ，学习率 $α$
初始化：随机初始化参数 $θ 、 ϕ$ ，训练直到策略收敛，输出 $π_{θ}$
根据策略 $π_{θ} (a | s)$ 生成1条轨迹，

τ = s_{0}, a_{0}, s_{1}, a_{1}, \dots, s_{T - 1}, a_{T - 1}, s_{T}

每个时刻循环计算，先计算 $G (τ_{t : T})$ ，再依次更新值函数和策略函数参数

\begin{array}{l} δ \leftarrow G (τ_{t : T}) - V_{ϕ} (s_{t}) \\ ϕ \leftarrow ϕ + β \cdot δ \cdot \frac{\partial}{\partial ϕ} V_{ϕ} (s_{t}) \\ θ \leftarrow θ + α \cdot γ^{t} δ \cdot \frac{\partial}{\partial θ} \log π (a_{t} | s_{t}) \end{array}

降低方差方法的公式推导

目的

估计 $E [f]$ ，构造新估计量 $\hat{f}$ ，使得
- 无偏性： $E [f] = E [\hat{f}]$ ，
- 减小方差： $V a r (\hat{f}) < V a r (f)$

核心方法

构建 $\hat{f}$ ：引入一个与f相关的辅助函数g，E[g]已知。

\hat{f} = f - α (g - E [g])

保证无偏性推导期望：推导可知 $E [\hat{f}] = E [f]$

E [\hat{f}] = E [f] - α \cdot E (g - E [g]) = E [f] - α \cdot (E [g] - E [g]) = E [f]

推导方差供减小优化使用 $Var (\hat{f})$ ：方差、协方差

\begin{array}{l} V a r (\hat{f}) & = Var (f - α (g - E [g])) \\ = Var (f - α \cdot g) \\ = Var (f) + α^{2} Var (g) - 2 α \cdot Cov (f, g) \end{array}

最小方差求解：求解极值点 $α$ 取值
- 方差恒为正，是常数；根据上式可知 $V a r (\hat{f})$ 是关于 $α$ 的凹函数，必然存在极小值
- 求导数并使其为0，求解出最小值时的取值。

\begin{array}{l} \frac{\partial V a r (\hat{f})}{\partial α} = 2 α V a r (g) - 2 C o v (f, g) \\ 令 其 = 0 ， 得 : α = \frac{C o v (f, g)}{V a r (g)} \end{array}

最小方差求解：代回极值点，求解出最小值

\begin{array}{l} V a r (\hat{f}) & = V a r (f) + \frac{C o v^{2} (f, g)}{V a r (g)} - 2 \frac{C o v^{2} (f, g)}{V a r (g)} \\ = V a r (f) - \frac{C o v^{2} (f, g)}{V a r (g)} \\ = V a r (f) (1 - \frac{C o v^{2} (f, g)}{V a r (f) V a r (g)}) \\ = V a r (f) \cdot (1 - \underset{相 关 系 数}{\underset{⏟}{ρ^{2} (f, g))}}) \end{array}

极小值： $f$ 和 $g$ 的相关性越高， $V a r (\hat{f})$ 越小

Actor-Critic算法

Actor-Critic 算法

背景

REINFORCE算法 方差大、学习效率较低， $G (τ_{t : T})$ 计算慢
- 每次根据一个策略采样一条完整轨迹，并计算这条轨迹上的回报
借TD动态规划思想，提高采样效率，状态s的总回报由即时奖励和下个状态的值函数来估计。

核心思想

迭代计算t作为初始时刻的轨迹总回报 $G (τ_{t : T})$

\hat{G} (τ_{t : T}) = r_{t + 1} + γ V_{ϕ} (s_{t + 1})

初始，演员随机表演、评论员随机打分；通过每步各自不断学习更新，评分越来越准、表演越来越好。
- 演员，策略函数 $π_{θ} (s, a)$ ：学习策略获得高回报
- 评论员，值函数 $V_{ϕ} (s)$ ，评估当前策略好坏
$V_{ϕ} (s)$ 值函数目标函数，调整打分标准

L (ϕ) = min_{ϕ} (\hat{G} (τ_{t : T}) - V_{ϕ} (s))^{2} = min_{ϕ} (\underset{动 态 规 划, 实 际 值}{\underset{⏟}{r_{t + 1} + γ V_{ϕ} (s_{t + 1})}} - \underset{预 测 值}{\underset{⏟}{V_{ϕ} (s_{t})}})^{2}

$π_{θ} (s, a)$ 策略函数策略梯度， 调整策略；值函数作为基线函数，降低方差，

\frac{\partial {\hat{J}}_{t} (θ)}{\partial θ} = E_{s_{t}, a_{t}} [\frac{\partial}{\partial θ} \log π (a_{t} ∣ s_{t}) \cdot γ^{t} \underset{基 准 函 数 ， 减 小 G 方 差}{\underset{⏟}{(\hat{G} (τ_{t : T}) - V_{ϕ} (s_{t}))}}]

值函数3个功能
- 估计轨迹真实回报（打分）
- 更新值函数参数 $ϕ$ （调整打分标准）
- 作为基函数来减少策略梯度的方差（调整策略）

优点

可以单步更新参数，不需要等到回合结束才进行更新

Actor-Critic 算法步骤

算法步骤

输入：状态空间 $S$ ，动作空间 $A$ ，可微分策略函数 $π_{θ} (a ∣ s)$ ，可微分状态值函数 $V_{ϕ} (s)$ ，折扣率 $γ$ ，学习率 $α 、 β$
初始化：随机初始化参数 $θ 、 ϕ$ ，训练直到策略收敛，输出 $π_{θ}$
初始化起始状态s，每个步骤做采样更新，直到s为终止态
执行动作 $a = π_{θ} (a | s)$ ，获得奖励 $r (s, a, s^{'})$ 和新状态 $s^{'}$
动态规划估计轨迹回报，计算基准差值 $δ$ ，更新值函数参数、更新策略函数参数

\begin{array}{l} 预 估 轨 迹 回 报 & G (τ_{t : T}) \leftarrow r + γ V_{ϕ} (s^{'}) \\ 基 准 函 数 差 值 & δ \leftarrow G (τ_{t : T}) - V_{ϕ} (s) = r + γ V_{ϕ} (s^{'}) - V_{ϕ} (s) \\ 值 函 数 参 数 & ϕ \leftarrow ϕ + β \cdot δ \cdot \frac{\partial}{\partial ϕ} V_{ϕ} (s_{t}) \\ 策 略 函 数 参 数 & θ \leftarrow θ + α \cdot γ^{t} δ \cdot \frac{\partial}{\partial θ} \log π (a_{t} | s_{t}) \end{array}

强化学习算法总结

方法总览

1. 通用步骤

执行策略，生成样本
估计回报
更新策略

2. 值函数与策略函数的比较

值函数的方法

策略更新，导致值函数的改变比较大，对收敛性有一定的影响

策略函数的方法

策略更新，更加平稳。

缺点：策略函数的解空间很大，难以进行充分采样，导致方差较大，容易陷入局部最优解。

四个典型方法

与监督学习的区别

	强化学习	监督学习
样本	与环境进行交互产生样本，进行试错学习	人工收集并标注
反馈	只有奖励，并且是延迟的	需要明确的指导信息（每个状态对应一个动作）

(18年笔记)基于策略函数的学习方法

基于策略函数的学习方法 ​

背景 ​

策略梯度 ​

REINFORCE算法 ​

带基准线的REINFORCE算法 ​

Actor-Critic算法 ​

强化学习算法总结 ​

方法总览 ​

四个典型方法 ​

与监督学习的区别 ​

基于策略函数的学习方法

背景

策略梯度

REINFORCE算法

带基准线的REINFORCE算法

Actor-Critic算法

强化学习算法总结

方法总览

四个典型方法

与监督学习的区别