Skip to content

AppWorld 合成数据相关

📅 发表于 2026/03/19
🔄 更新于 2026/03/19
👁️ -- 次访问
📝 0 字
0 分钟
Appworld-Data
#CuES

(2512) (通义) CuES: A Curiosity-driven and Environment-grounded Synthesis Framework for Agentic RL

🌺 论文摘要

CuES 论文摘要

参考链接

核心方法

  • CuES 框架:好奇心驱动(Curiosity-driven) + 环境落地(Environment-grounded) 的任务合成框架。
  • 解决核心问题Task Scarcity(任务稀缺)。在没有预定义任务的环境中,如何让Agent自主生成任务并学习。
  • 5阶段流程
    • 需求确认:提取环境概念和原则。
    • 好奇探索:基于环境记忆(Memory)的自底向上探索,生成轨迹。
    • 任务抽象:将轨迹抽象为Guideline可执行目标
    • 质量控制:自我验证(Self-Verification),确保任务可执行性
    • 目标重写:通过Hint调整任务难度,生成课程数据。
  • 数据来源:完全自主生成,无需人工种子目标外部语料库

模型效果 (Qwen2.5-14B + CuES)

  • AppWorld (Test Normal, TGC):达45.24%,远超基座模型(14.29%),甚至超过Qwen3-32B (32.12%)。
  • WebShop:达64.10%,相比基座(23.74%)提升显著。
  • BFCL v3:达44.15%,在此指标上超过DeepSeek-V3 (43.5%)。

重要结论

  • 自主生成的任务在多样性和可执行性上匹配甚至超过人工构建数据集
  • 好奇心驱动 + 环境感知 可以有效替代昂贵的人工任务设计。
  • 解决了Agentic RL中"不仅学怎么做(How),还要学做什么(What)"的问题。

关键贡献

  • 形式化了Agentic RL的任务生成问题
  • 提出了CuES框架,结合自底向上探索自顶向下指导,实现高质量训练任务合成。

问题背景(任务稀缺)

问题背景

现有Agentic RL的瓶颈

现实困境

  • LLM Agent部署在复杂环境(如AppWorld, OS, Web),但缺乏结构化的训练任务
  • Agent可以交互,但不知做什么任务提升自己

现有方法局限

  • 依赖预定义任务:依赖预定任务+RL训练,但这在未知环境不存在
  • 人工设计昂贵手动构建 多样可执行任务非常困难
  • 合成数据局限:现有合成方法通常依赖人工种子目标外部数据无法做到完全自主

核心问题

  • 没有预定义任务,如何让Agent利用环境,自主生成 多样+可解+有意义训练任务

核心方法(CuES框架, 探索-抽象-验证)

5阶段生成流程

1. 需求确认 (Requirement Confirmation)

  • 输入环境描述 (Tdes),可选的用户需求/种子目标
  • 输出概念池 (C~) 和 行动原则 (P)。
  • 作用:建立对环境实体、动作和约束的结构化理解,作为自顶向下的指导

2. 好奇探索 (Curious Exploration)

  • 核心Explorer Agent 基于环境记忆树 进行自底向上的交互
  • 策略优先尝试当前环境状态下未执行过的动作避免冗余探索
  • 产出:带有环境反馈原始交互轨迹

3. 任务抽象 (Task Abstraction)

  • 目标:将低级交互轨迹(z) 提升为可重用的任务Schema
  • 输出
    • Guideline (zi:j):有效的动作序列
    • Executable Goal (gi:j):自然语言描述的目标
  • 置信度过滤LLM Judge 评估轨迹的一致性清晰度

4. 质量控制 (Quality Control / Self-Verification)

  • 机制:Agent 尝试解决生成的任务 (gi:j)。
  • 目的:确保生成任务 合理+可执行。仅保留通过验证的任务。

5. 目标重写 (Goal Rewrite)

  • 难例挖掘隐藏Guideline细节,利用Rewrite Hints (参数/前提条件) 调整目标描述
  • 课程生成:生成不同难度层级 (L) 的目标,从简单指令抽象意图,构建多样化训练集
核心设计原则

F_task 映射的三要素

  • Executability (可执行性)合法+能通过验证,避免噪声监督。
  • Diversity (多样性):覆盖不同的实体动作约束,防止坍缩到简单模板。
  • Relevance (相关性):任务语义和难度应与目标评估环境相关,避免跑题。

AppWorld 合成625个任务

实验设置

✍️实验设置

实验设置

基础模型

  • Qwen2.5-14B-Instruct (主要实验模型)
  • 对比模型:Qwen2.5 (3B, 7B, 32B), Qwen3-32B, GPT-4o, DeepSeek-V3

训练任务/数据

  • 数据来源CuES 框架自主生成,无人工种子任务。
    • AppWorld:模拟手机操作环境,生成API调用任务。
    • WebShop:模拟电商购物,生成搜索与购买任务。
    • BFCL v3:函数调用任务。
  • 数据规模
    • 生成大量(Task, Trajectory)对。
    • 强调多样性可执行性 (Executability)。

评测任务/数据

  • AppWorldTGC , 未评估 SGCTest Normal未评估 Test Challenge
  • WebShopScore (平均得分), SR (Success Rate)
  • BFCL v3AST Accuracy, Executable Accuracy

算法/策略

  • CuES 5阶段合成任务方法
  • SFT:基于阶段3高质量成功轨迹做微调 (Behavior Cloning)。
  • Agentic RL 训练:利用可执行任务作为环境做训练,解决任务稀疏问题

超参

关键结果

🍑关键结果

模型效果

AppWorld (Test Normal - TGC指标)

  • CuES (14B): 45.24% (Greedy), 45.54% (avg@8)
  • 超过Baseline: Qwen2.5-14B 14分,Qwen3-32B 32分。

WebShop (Score)

  • CuES (14B): 64.10%,超过Baseline: Qwen2.5-14B 23分,Qwen3-32B 36分。

BFCL v3 (Multi-Turn Base)

  • CuES (14B): 44.15%
  • 超越Qwen-2.5-14B 31分,DeepSeek-V3 43分GPT-4o-mini 43分
数据质量分析

多样性与分布 (t-SNE & Metrics)

  • AppWorld: CuES数据覆盖原始数据分布,且漂移很小,保证了相关性。
  • WebShop: CuES数据分布比原始数据更广自冗余度更低,说明生成了多样化购物意图
  • 可执行性: 经过质量控制,任务的可执行性显著提升 (如在AppWorld上从0.61->0.72)。

未来方向

未来方向

未来展望

On-Policy Synthesis

  • 目前CuES是离线生成数据
  • 未来可探索在线合成策略,训练时根据当前能力 动态生成适合自己的任务

环境特定的奖励模型

  • 利用生成的轨迹和结果,训练专门的Reward Model,解决稀疏奖励问题

跨域适应

  • 验证该框架在更开放非结构化环境(如通用OS操作)中的有效性
总访客数:   ·   总访问量:
PLM's Blog @ 2016 - 2026