确定性策略梯度

背景

离散和连续动作

离散连续动作处理方法

随机 vs 确定

随机性策略： $π_{θ} (a_{t} ∣ s_{t})$ ，输出概率分布，依概率采样动作，输出有随机性
确定性策略： $μ_{θ} (s_{t})$ ，输出具体动作，不受概率影响，输入相同，输出也相同

离散 vs 连续

离散动作：输出加softmax，使概率和为1，依概率选择即可
连续动作：输出值做缩放到目标区间即可，比如tanh -> [-1, 1], 扩展至小车速度[-2,2]，乘以2即可

离散动作和连续动作

随机性策略、确定性策略。

离散、连续动作转换

确定性PG算法

DPG

DDPG的初衷是为了使DQN支持连续动作，架构类似Actor-Critic，但比A3C提出的早1年(2015)。

Deterministic Policy Gradient

问题&背景

DQN 不支持连续动作：动作通过Q函数做贪心或argmax间接得到
动作空间是连续的，无法通过遍历得到最好动作。
目标：用策略 $a = μ (s)$ 找到使 $Q (s, a)$ 值最大的动作a，输出确定性动作

核心思想

Critic-Actor 架构
- Critic： $Q_{w} (s, a)$ ，评估 $(s, a)$ 的价值；
- Actor： $μ_{θ} (s)$ ，适配连续动作
求解 $μ_{θ}$ :
- 目标：使 $Q (s, μ_{θ} (a))$ 最大
- 求导：用Q 对 $μ_{θ}$ 求导： $\nabla_{θ} Q (s, μ_{θ} (s))$
  - 梯度链式法则，先对a求导，再对 $θ$ 求导。
- 再利用梯度上升法来最大化函数Q，得到Q值最大的动作

\nabla_{θ} J (θ) = E_{s \sim v^{π_{β}}} [\underset{对 θ 求 导}{\underset{⏟}{\nabla_{θ} Q (s, μ_{θ} (s))}}]

\nabla_{θ} J (θ) = E_{s \sim v^{π_{β}}} [\underset{对 a 求 导}{\underset{⏟}{\nabla_{a} Q_{w}^{μ} (s, a) |_{a = μ_{θ} (s)}}} \cdot \underset{对 θ 求 导}{\underset{⏟}{\nabla_{θ} μ_{θ} (s)}}]

本质：DPG沿用DQN思想，寻找最大Q值动作，没做真正意义上的梯度更新

Actor的任务是找到最大Q的a值。

网络结构

DPG vs DQN

DQN：给定状态，通过2步求解动作，估计Q函数 和贪心选择动作
DPG：给定状态，通过1步求解动作： $A c t o r = μ_{θ} (s_{t})$ 直接输出动作值
DQN的Q函数相当于 DPG中的Critic

DDPG

核心思想

Deep Determinisitic Policy Gradient

核心思想

关键概念
- 深度：神经网络
- 确定性：输出确定性动作，适用于连续动作；
- 策略梯度： 使用策略网络，单步更新。

DDPG=DPG+技巧

DQN技巧
- 目标网络：Actor-Critic结构，同时学习 $Q_{w}$ 和策略网络 $μ_{θ}$ 。
- 经验回放：同DQN
其他技巧
- 引入噪声增加策略探索

Actor-Critic 架构

Actor-Critic架构

优化目标

DDPG 优化目标

两个网络优化

策略网络：策略梯度

\nabla_{θ} J (θ) = E_{s \sim v^{π_{β}}} [\underset{对 a 求 导}{\underset{⏟}{\nabla_{a} Q_{w}^{μ} (s, a) |_{a = μ_{θ} (s)}}} \cdot \underset{对 θ 求 导}{\underset{⏟}{\nabla_{θ} μ_{θ} (s)}}]

Q网络：
- Q_target：用真实奖励 $r$ 和下一步的 $Q (s_{t + 1}, a^{'})$ 来你和未来奖励Q_target
- Q_估计：当前Q网络输出
- 让Q_估计 去逼近Q_target，MSEloss

关键技巧

1. 目标网络

策略网络(actor)和Q网络(actor)均各有1个目标网络，一共4个网络，来稳定训练
固定目标网络，隔一段时间再更新

2. 经验回放

数据是 $s, a, r, s^{'}$ ，存到缓冲区，异策略算法

3. OU噪声/高斯噪声

核心思想：策略是直接输出动作，则在输出值上加一个噪声
高斯噪声：不相关、均值为0，简单、效果更好。
OU噪声：自回归随机过程，相比高斯有优点：

OU噪声

定义

自回归随机过程，高斯噪声+回归项。
- $θ$ 通常是固定的，调整 $μ, σ$ 即可； $d W_{t}$ 是随机项，布朗运动等。

d x_{t} = θ (μ - x_{t}) d t + σ d W_{t}

在复杂环境才能体现出优点。

相比高斯噪声的优点

探索性：具有持续、自相关的特性，更加平滑，有助于探索广泛空间
稳定性：平滑特性，让训练更稳定
控制幅度：通过调整参数控制幅度，可以平衡探索和利用
- 高方差：增强探索；小方差：增强利用性
可控性：逐渐回归到均值，可以逐渐减少探索性

优缺点

DDPG 优缺点

优点

采用确定性策略：适用于连续空间；确定性策略更容易优化和学习，可缓解连续动作高方差问题
高效的梯度优化：策略梯度处理高维状态动作空间；Actor-Critic结构，利用Critic辅助优化策略
经验回放和目标网络：减弱样本相关性、提高利用率；稳定训练过程，避免Q估计和目标值的相关性问题

缺点

只适用于连续动作空间
高度依赖超参数：DQN超参、OU超参等
高度敏感初始化条件：
容易陷入局部最优：采用确定性策略，难以找到全局最优；需要噪声策略或其他探索方法。

TD3/Twin Delayed DDPG

双Q网络

核心思想

使用2个Critic网络， $Q_{w 1} 、 Q_{w_{2}}$ ，计算TD误差时，取两个Q值中较小的那个。

y_{t} = r_{t + 1} + γ min_{i = 1, 2} Q_{w_{i}} (s_{t + 1}, μ_{θ} (s_{t + 1}))

目的：减少Q值过估计，提高算法稳定性和收敛性。

双Q网络 vs DoubleDQN

DoubleDQN：两个Q网络交替来选动作和做评估
Twin Q：只在在Critic上做文章，选最小的

Actor 延迟更新

背景

猫抓老鼠同时变化/目标网络的背景，不太好训练
Actor 一直在追逐 Critic，容易造成误差的过分累计，甚至是发散
- Actor好不容易到达高点，Critic又变了

核心思想

Actor更新频率低于Critic，低一个数量级
- 如Critc更新10次，Actor只更新1次

优点

提高Critic更新频率，来减少值函数估计
- 降低了领导决策的失误率

缺点

只让Critic误差不要过多影响到Actor，没有从根本上考虑改进Critic误差问题，治标不治本

Critic 噪声正则化

背景

Critic 本身带来的误差、不稳定问题

核心思想

给Critic输入增加一个噪声，提高抗干扰性，来提高稳定性
同时为噪声加一个裁剪，防止噪声过大

y = r_{t + 1} + γ Q_{w} (s_{t + 1}, μ_{θ} (s_{t + 1}) + ϵ) ϵ \sim clip (N (0, σ), - c, c)

背景 ​

离散和连续动作 ​

确定性PG算法 ​

DPG ​

DDPG ​

核心思想 ​

Actor-Critic 架构 ​

优化目标 ​

关键技巧 ​

优缺点 ​

TD3/Twin Delayed DDPG ​

双Q网络 ​

Actor 延迟更新 ​

Critic 噪声正则化 ​

背景

离散和连续动作

确定性PG算法

DPG

DDPG

核心思想

Actor-Critic 架构

优化目标

关键技巧

优缺点

TD3/Twin Delayed DDPG

双Q网络

Actor 延迟更新

Critic 噪声正则化