确定性策略梯度
📅 发表于 2025/09/01
🔄 更新于 2025/09/01
👁️ -- 次访问
📝 0 字
⏳ 0 分钟
rl-theory
#连续动作
#确定性策略
#随机性策略
#DPG
#DDPG
#TD3
#Actor-Critic
#Q_估计
#Q_target
#目标网络
#经验回放
#OU噪声
#TD3
#双Q网络
#Actor 延迟更新
#Critic 噪声正则化
随机 vs 确定
随机性策略
:确定性策略
:离散 vs 连续
离散动作
:输出加softmax,使概率和为1,依概率选择即可连续动作
:输出值做缩放到目标区间即可,比如tanh -> [-1, 1], 扩展至小车速度[-2,2],乘以2即可离散动作和连续动作
随机性策略、确定性策略。
离散、连续动作转换
DDPG的初衷是为了使DQN支持连续动作,架构类似Actor-Critic,但比A3C提出的早1年(2015)。
问题&背景
贪心
或argmax
间接得到目标
:用策略确定性动作
核心思想
Critic-Actor 架构
适配连续动作
梯度链式法则
,先对a求导,再对梯度上升法
来最大化函数Q
,得到Q值最大的动作DPG沿用DQN思想
,寻找最大Q值动作
,没做真正意义上的梯度更新Actor的任务是找到最大Q的a值。
网络结构
估计Q函数
和贪心选择动作
1步求解动作
: 直接输出动作值
Critic
核心思想
神经网络
输出确定性动作
,适用于连续动作
;使用策略网络
,单步更新。DDPG=DPG+技巧
整体流程
根据评委打分调整自己策略
,更新参数争取下次做的更好
根据观众反馈/环境反馈
,调整打分策略,更新参数让评的更准
关键点
尽可能获得观众更多的掌声
,从而最大化未来总收益
演员不关注观众,只迎合评委
,评委需根据观众评的更准
。两个网络优化
Q_估计
去逼近Q_target
,MSEloss
1. 目标网络
2. 经验回放
异策略算法
3. OU噪声/高斯噪声
核心思想:策略是直接输出动作,则在输出值上加一个噪声
高斯噪声:不相关、均值为0,简单、效果更好。
OU噪声:自回归随机过程,相比高斯有优点:
定义
相比高斯噪声的优点
优点
缺点
核心思想
双Q网络 vs DoubleDQN
背景
核心思想
优点
降低了领导决策的失误率
缺点
没有从根本上考虑改进Critic误差问题
,治标不治本背景
核心思想
给Critic输入增加一个噪声
,提高抗干扰性,来提高稳定性为噪声加一个裁剪
,防止噪声过大