Agent-Interaction-RL 笔记
📅 发表于 2025/05/30
🔄 更新于 2025/05/30
👁️ 次访问
📝 0 字
⏳ 0 分钟
Agent-Interaction-RL
#StarPo
#RAGEN
#GiGPO
❓问题背景
名称 | 关键点 | 缺点 |
---|---|---|
Trajectory-Level (Vanialla GRPO) | 执行完整个任务后,算整体的评价advantage | 粒度太粗。 比如agent 50步,无法知道哪一步关键、哪一步多余。 |
Step-Level (按状态额外rollout) | 在轨迹中的某个状态(如s4),额外rollout,尝试所有动作( | 成本太高。 每个状态都需要LLM模拟不同动作,这几乎不能实现。 |
GiGPO(本文) | - 先像GRPO一样,收集多条完整的轨迹。 - 再从多轨迹中,收集相同环境状态 - 通过源自相同状态但后续发展不同的序列,来判断哪个动作更好。 | 巧妙利用已有轨迹下同状态不同动作的序列比较,实现细粒度信用分配,但无需高额计算开销 |
📕核心方法
1个观察:LLM agent在策略不成熟时,会重复访问相同的状态(比如重复进同一网页,回到同一房间)等。
GiGPO 算法
Episode Relative Advantages(Global,粗粒度):与GRPO算法一致,rollout多个轨迹分组,计算advantage。
Step Relative Advantages(local,细粒度):聚合状态(env)相同但输出(action)不同的序列,计算细粒度的step-level advantage。
step-level groups
step-relative advanteges
最终 group-in-group advantages:
这个过程几乎没有额外计算开销。
✍️实验配置
🍑关键结果
❓问题背景
echo trap
(回声陷阱)不稳定模式,agent过拟合局部奖励推理模式。 📕核心方法
RAGEN通过StarPO框架专注于动态任务。
StarPO 框架流程图
✍️实验配置
模型:Qwen2.5-0.5B,
算法:PPO/GRPO,verl框架
任务:3个简单可控的游戏符号环境
🍑关键结果