AppWorld 合成数据相关

(2512) (通义) CuES: A Curiosity-driven and Environment-grounded Synthesis Framework for Agentic RL

🌺 论文摘要

CuES 论文摘要

参考链接

paper, code

核心方法

CuES 框架：好奇心驱动(Curiosity-driven) + 环境落地(Environment-grounded) 的任务合成框架。
解决核心问题：Task Scarcity（任务稀缺）。在没有预定义任务的环境中，如何让Agent自主生成任务并学习。
5阶段流程：
- 需求确认：提取环境概念和原则。
- 好奇探索：基于环境记忆(Memory)的自底向上探索，生成轨迹。
- 任务抽象：将轨迹抽象为Guideline和可执行目标。
- 质量控制：自我验证(Self-Verification)，确保任务可执行性。
- 目标重写：通过Hint调整任务难度，生成课程数据。
数据来源：完全自主生成，无需人工种子目标或外部语料库。

模型效果 (Qwen2.5-14B + CuES)

AppWorld (Test Normal, TGC)：达45.24%，远超基座模型(14.29%)，甚至超过Qwen3-32B (32.12%)。
WebShop：达64.10%，相比基座(23.74%)提升显著。
BFCL v3：达44.15%，在此指标上超过DeepSeek-V3 (43.5%)。

重要结论

自主生成的任务在多样性和可执行性上匹配甚至超过人工构建数据集。
好奇心驱动 + 环境感知 可以有效替代昂贵的人工任务设计。
解决了Agentic RL中"不仅学怎么做(How)，还要学做什么(What)"的问题。

关键贡献

形式化了Agentic RL的任务生成问题。
提出了CuES框架，结合自底向上探索和自顶向下指导，实现高质量训练任务合成。

问题背景(任务稀缺)

❓问题背景

现有Agentic RL的瓶颈

现实困境

LLM Agent部署在复杂环境(如AppWorld, OS, Web)，但缺乏结构化的训练任务。
Agent可以交互，但不知做什么任务来提升自己。

现有方法局限

依赖预定义任务：依赖预定任务+RL训练，但这在未知环境中不存在。
人工设计昂贵：手动构建 多样可执行任务非常困难
合成数据局限：现有合成方法通常依赖人工种子目标或外部数据，无法做到完全自主。

核心问题

没有预定义任务，如何让Agent利用环境，自主生成 多样+可解+有意义的训练任务？

核心方法(CuES框架, 探索-抽象-验证)

5阶段生成流程

1. 需求确认 (Requirement Confirmation)

输入：环境描述 ( $T_{d e s}$ )，可选的用户需求/种子目标。
输出：概念池 ( $\tilde{C}$ ) 和 行动原则 ( $P$ )。
作用：建立对环境实体、动作和约束的结构化理解，作为自顶向下的指导。

2. 好奇探索 (Curious Exploration)

核心：Explorer Agent 基于环境记忆树 进行自底向上的交互。
策略：优先尝试当前环境状态下未执行过的动作，避免冗余探索。
产出：带有环境反馈的原始交互轨迹。

3. 任务抽象 (Task Abstraction)

目标：将低级交互轨迹( $z$ ) 提升为可重用的任务Schema。
输出：
- Guideline ( $z_{i : j}$ )：有效的动作序列。
- Executable Goal ( $g_{i : j}$ )：自然语言描述的目标。
置信度过滤：LLM Judge 评估轨迹的一致性和清晰度。

4. 质量控制 (Quality Control / Self-Verification)

机制：Agent 尝试解决生成的任务 ( $g_{i : j}$ )。
目的：确保生成任务 合理+可执行。仅保留通过验证的任务。

5. 目标重写 (Goal Rewrite)

难例挖掘：隐藏Guideline细节，利用Rewrite Hints (参数/前提条件) 调整目标描述。
课程生成：生成不同难度层级 ( $L$ ) 的目标，从简单指令到抽象意图，构建多样化训练集。

核心设计原则

F_task 映射的三要素

Executability (可执行性)：合法+能通过验证，避免噪声监督。
Diversity (多样性)：覆盖不同的实体、动作和约束，防止坍缩到简单模板。
Relevance (相关性)：任务语义和难度应与目标评估环境相关，避免跑题。

AppWorld 合成625个任务。

实验设置

✍️实验设置

实验设置

基础模型

Qwen2.5-14B-Instruct (主要实验模型)
对比模型：Qwen2.5 (3B, 7B, 32B), Qwen3-32B, GPT-4o, DeepSeek-V3

训练任务/数据

数据来源：CuES 框架自主生成，无人工种子任务。
- AppWorld：模拟手机操作环境，生成API调用任务。
- WebShop：模拟电商购物，生成搜索与购买任务。
- BFCL v3：函数调用任务。
数据规模
- 生成大量(Task, Trajectory)对。
- 强调多样性和可执行性 (Executability)。

评测任务/数据

AppWorld：TGC , 未评估 SGC 。Test Normal ，未评估 Test Challenge
WebShop：Score (平均得分), SR (Success Rate)
BFCL v3：AST Accuracy, Executable Accuracy

算法/策略

CuES 5阶段合成任务方法。
SFT：基于阶段3高质量成功轨迹做微调 (Behavior Cloning)。
Agentic RL 训练：利用可执行任务作为环境做训练，解决任务稀疏问题。

超参

关键结果

🍑关键结果

模型效果

AppWorld (Test Normal - TGC指标)

CuES (14B): 45.24% (Greedy), 45.54% (avg@8)
超过Baseline: Qwen2.5-14B 14分，Qwen3-32B 32分。

WebShop (Score)

CuES (14B): 64.10%，超过Baseline: Qwen2.5-14B 23分，Qwen3-32B 36分。

BFCL v3 (Multi-Turn Base)

CuES (14B): 44.15%
超越Qwen-2.5-14B 31分，DeepSeek-V3 43分， GPT-4o-mini 43分。

数据质量分析

多样性与分布 (t-SNE & Metrics)

AppWorld: CuES数据覆盖原始数据分布，且漂移很小，保证了相关性。
WebShop: CuES数据分布比原始数据更广，自冗余度更低，说明生成了多样化购物意图。
可执行性: 经过质量控制，任务的可执行性显著提升 (如在AppWorld上从0.61->0.72)。

未来方向

⛳ 未来方向

未来展望

On-Policy Synthesis

目前CuES是离线生成数据。
未来可探索在线合成策略，训练时根据当前能力 动态生成适合自己的任务。

环境特定的奖励模型

利用生成的轨迹和结果，训练专门的Reward Model，解决稀疏奖励问题。

跨域适应

验证该框架在更开放、非结构化环境(如通用OS操作)中的有效性。

AppWorld 合成数据相关

(2512) (通义) CuES: A Curiosity-driven and Environment-grounded Synthesis Framework for Agentic RL ​

问题背景(任务稀缺) ​

核心方法(CuES框架, 探索-抽象-验证) ​

实验设置 ​

关键结果 ​

未来方向 ​

(2512) (通义) CuES: A Curiosity-driven and Environment-grounded Synthesis Framework for Agentic RL

问题背景(任务稀缺)

核心方法(CuES框架, 探索-抽象-验证)

实验设置

关键结果

未来方向