策略改进方法:TRPO+PPO
📅 发表于 2025/09/02
🔄 更新于 2025/09/02
👁️ -- 次访问
📝 0 字
⏳ 0 分钟
rl-theory
#方差
#TRPO
#新旧策略
#策略单调递增
#重要性采样
#KL约束
#信任区域
#KL球
#GAE
#PPO
#优势策略梯度
#PPO-Penalty
#PPO-Clip
#GRPO
问题定义
方法
用来修正采样的偏差
,即两个分布直接的差异。特殊的MC采样
,允许从简单分布采样,避免直接从困难分布采样的问题。缺点
如果采样次数不够多
,会有很大的差异
。Trust region policy optimization
Actor-Critic 缺点
核心目标
保证策略性能单调递增
难点
目标优化
KL 约束
KL约束
,保证新旧策略足够近
信任区域
:不等式约束定义了策略空间中的一个KL球。信任区域示意图:左侧无信任区域,梯度更新可能导致性能骤降;右侧有信任区域,每次梯度更新都能带来稳定提升。
def compute_advantage(gamma, lmbda, td_delta):
td_delta = td_delta.detach().numpy()
advantage_list = []
advantage = 0.0
for delta in td_delta[::-1]:
advantage = gamma * lmbda * advantage + delta
advantage_list.append(advantage)
advantage_list.reverse()
return torch.tensor(advantage_list, dtype=torch.float)
TRPO的问题
PPO
PPO算法流程
策略梯度
优势策略梯度
目标函数
优点
PPO 目标函数
TRPO 目标函数
核心思想
GAE带来的计算开销大、训练不稳定
奖励
和价值
需由独立的Critic模型计算得到
计算开销非常
大,且训练不稳定
导致 无法提供准确的价值信号
解决PPO训练开销大,训练不稳定的
Group Relative Policy Optimization