Skip to content

Agent-RL 综述型笔记

📅 发表于 2025/05/21
🔄 更新于 2025/05/21
👁️ 次访问
📝 0 字
0 分钟
agent-rl
#agent-rl
文章概要
  • 记录整理学习他人的Agent-RL综述/方向型的内容笔记。

前言 ✨

在学习Agent-RL过程中,发现很多有意思的文章,本想放到一篇博客整理,但发现太多,于是对其进行拆开,整体目前分为4个部分:

  • 《Agent-Search-RL 笔记》:记录搜索浏览相关内容。
  • 《Agent-Tool-RL 笔记》:记录工具调用相关内容,目前代码数学问题居多。
  • 《Agent-Interaction-RL 笔记》:侧重于环境多轮交互,目前游戏居多。
  • 《Agent-RL 综合性笔记》(本文):不属于上述类型的内容,偏综述型的内容。

技术文章 📚

技术达人写的文章,笔记。

(2505) 是念:2025年大模型agent rl训练多轮planning技术TORL,ToolRL,OTC,SkyRL-v0, GiGPO,Tool-N1 ,ARTIST, ZeroTIR, GRPO

概要
  • AgentRL优点: 通过工具交互能获取外部知识。
  • AgentRL缺点: 目前交互次数少多工具混合研究少,解决复杂问题仍有挑战。
  • DeepSeek R1 带火了 RL技术。
  • 列举了相关流行工作,见拆解文章。
  • 原文链接:是念:2025大模型agentrl...

Agent RL 优缺点分析 🧐

Agent RL 优缺点 🛠️

🏴 背景

  • Agentic tool use learning 也开始用上了 GRPO 等 RL 算法,让 LLM 学会使用 code-intepreterweb-search 等工具,增强模型数学及推理能力,包括单轮/多轮 tool-use。

🌟 Agent RL 优点

  • 通过 tool 交互获取外部知识,进一步提升模型准确率。
  • PPO 系列是一个 online-rl 方法,需要的数据量小很多,而传统 DPO 需要大量数据进行训练。
    • 每次通过 sampling 生成样本,然后进行训练提升

⚠️ Agent RL 缺点

  • 真正复杂任务可能需要 30-100 个 step 才能完成,目前 RL 框架集中解决 10 个 step 左右就能完成的任务,距离真正解决复杂问题仍有一段距离
    • 受限于 LLM 处理长序列效果下降、计算效率低等原因。
  • GRPO rule-based 方法虽已简化流程,仍需要标注数据、精心设计 reward、调参及数据,才能得到好效果
  • RL 依赖环境训练,一般速度较慢(仿真环境),如何跟上 GPU 计算 RL 训练,仍是一个问题。
  • Agent-RL 研究单一工具居多(code, web-search),而多工具混合、多轮调用研究较少

DeepSeek 技术分析 🔍

  • MoE:降低了训练成本、提高了推理效率
  • Multi-Head Latent Attention:减少了注意力部分的KV缓存、Low Rank
  • Multi-Token Prediction:提高模型性能(准确性)
  • DualPipe:提高了大规模GPU集群的计算与通信比率和效率
  • FP8 Training:采样低精度训练进一步降低训练成本
  • DeepSeek-R1:采样GRPO和多阶段训练。
GRPO vs PPO ⚠️

DeepSeek R1 GRPO 带火了RL技术路线,其中GRPO和PPO相差较小。主要区别是advantage是sampling过程产生样本的reward 求均值求方差得到的。

其他具体内容见拆分后的笔记。

(2505) 亚里随笔:ToolRL探路者——万字长文总结LLM ToolRL系列近期工作 ✍️

概要
问题背景 🚧
  • 纯文本推理具有局限性:面对复杂计算等场景,有工具调用需求
  • 工具集成推理的现有问题SFT/Prompt方法不具备泛化能力,难以发现最优策略,限制了模型探索。
  • RL的挑战 (偏搜索)
    • 如何将搜索引擎集成到RL并保持优化稳定
    • LLM难以实现迭代推理和搜索引擎调用,无法根据问题复杂性动态调整检索策略
    • 有效的搜索/推理奖励设计困难,简单基于结果的奖励可能不足以引导LLM学习有意义的搜索行为
  • 工具使用效率问题:当前方法通常鼓励无节制工具使用,训练/推理存在问题。
  • 现有训练数据和方法不足:为增强工具调用能力,现研究大都合成工具使用数据来简单微调,但缺乏推理步骤,训练难以对过程指导,容易导致伪推理

其他具体内容见拆分后的笔记。

总访客数:   ·   总访问量:
PLM's Blog @ 2016 - 2025