Agent-RL 综述型笔记

文章概要

前言 ✨

在学习Agent-RL过程中，发现很多有意思的文章，本想放到一篇博客整理，但发现太多，于是对其进行拆开，整体目前分为4个部分：

技术达人写的文章，笔记。

概要

Agent RL 优缺点分析 🧐

Agent RL 优缺点 🛠️

🏴 背景

Agentic tool use learning 也开始用上了 GRPO 等 RL 算法，让 LLM 学会使用 code-intepreter、web-search 等工具，增强模型数学及推理能力，包括单轮/多轮 tool-use。

🌟 Agent RL 优点

通过 tool 交互获取外部知识，进一步提升模型准确率。
PPO 系列是一个 online-rl 方法，需要的数据量小很多，而传统 DPO 需要大量数据进行训练。
- 每次通过 sampling 生成样本，然后进行训练提升。

⚠️ Agent RL 缺点

真正复杂任务可能需要 30-100 个 step 才能完成，目前 RL 框架集中解决 10 个 step 左右就能完成的任务，距离真正解决复杂问题仍有一段距离。
- 受限于 LLM 处理长序列效果下降、计算效率低等原因。
GRPO rule-based 方法虽已简化流程，仍需要标注数据、精心设计 reward、调参及数据，才能得到好效果。
RL 依赖环境训练，一般速度较慢（仿真环境），如何跟上 GPU 计算 RL 训练，仍是一个问题。
Agent-RL 研究单一工具居多（code, web-search），而多工具混合、多轮调用研究较少。

DeepSeek 技术分析 🔍

GRPO vs PPO ⚠️

DeepSeek R1 GRPO 带火了RL技术路线，其中GRPO和PPO相差较小。主要区别是advantage是sampling过程产生样本的reward 求均值求方差得到的。

其他具体内容见拆分后的笔记。

概要

问题背景 🚧

纯文本推理具有局限性：面对复杂计算等场景，有工具调用需求。
工具集成推理的现有问题：SFT/Prompt方法不具备泛化能力，难以发现最优策略，限制了模型探索。
RL的挑战 (偏搜索)
- 如何将搜索引擎集成到RL并保持优化稳定
- LLM难以实现迭代推理和搜索引擎调用，无法根据问题复杂性动态调整检索策略
- 有效的搜索/推理奖励设计困难，简单基于结果的奖励可能不足以引导LLM学习有意义的搜索行为
工具使用效率问题：当前方法通常鼓励无节制工具使用，训练/推理存在问题。
现有训练数据和方法不足：为增强工具调用能力，现研究大都合成工具使用数据来简单微调，但缺乏推理步骤，训练难以对过程指导，容易导致伪推理

其他具体内容见拆分后的笔记。