AppWorld 合成数据相关
📅 发表于 2026/03/19
🔄 更新于 2026/03/19
👁️ -- 次访问
📝 0 字
⏳ 0 分钟
Appworld-Data
#CuES
🌺 论文摘要
参考链接
核心方法
CuES 框架:好奇心驱动(Curiosity-driven) + 环境落地(Environment-grounded) 的任务合成框架。解决核心问题:Task Scarcity(任务稀缺)。在没有预定义任务的环境中,如何让Agent自主生成任务并学习。5阶段流程: 需求确认:提取环境概念和原则。好奇探索:基于环境记忆(Memory)的自底向上探索,生成轨迹。任务抽象:将轨迹抽象为Guideline和可执行目标。质量控制:自我验证(Self-Verification),确保任务可执行性。目标重写:通过Hint调整任务难度,生成课程数据。数据来源:完全自主生成,无需人工种子目标或外部语料库。模型效果 (Qwen2.5-14B + CuES)
AppWorld (Test Normal, TGC):达45.24%,远超基座模型(14.29%),甚至超过Qwen3-32B (32.12%)。WebShop:达64.10%,相比基座(23.74%)提升显著。BFCL v3:达44.15%,在此指标上超过DeepSeek-V3 (43.5%)。重要结论
自主生成的任务在多样性和可执行性上匹配甚至超过人工构建数据集。好奇心驱动 + 环境感知 可以有效替代昂贵的人工任务设计。不仅学怎么做(How),还要学做什么(What)"的问题。关键贡献
Agentic RL的任务生成问题。CuES框架,结合自底向上探索和自顶向下指导,实现高质量训练任务合成。❓问题背景
现实困境
在复杂环境(如AppWorld, OS, Web),但缺乏结构化的训练任务。可以交互,但不知做什么任务来提升自己。现有方法局限
依赖预定义任务:依赖预定任务+RL训练,但这在未知环境中不存在。人工设计昂贵:手动构建 多样可执行任务非常困难合成数据局限:现有合成方法通常依赖人工种子目标或外部数据,无法做到完全自主。核心问题
没有预定义任务,如何让Agent利用环境,自主生成 多样+可解+有意义的训练任务?1. 需求确认 (Requirement Confirmation)
输入:环境描述 (用户需求/种子目标。输出:概念池 (行动原则 (作用:建立对环境实体、动作和约束的结构化理解,作为自顶向下的指导。2. 好奇探索 (Curious Exploration)
核心:Explorer Agent 基于环境记忆树 进行自底向上的交互。策略:优先尝试当前环境状态下未执行过的动作,避免冗余探索。产出:带有环境反馈的原始交互轨迹。3. 任务抽象 (Task Abstraction)
目标:将低级交互轨迹(可重用的任务Schema。输出: Guideline (动作序列。Executable Goal (目标。置信度过滤:LLM Judge 评估轨迹的一致性和清晰度。4. 质量控制 (Quality Control / Self-Verification)
机制:Agent 尝试解决生成的任务 (目的:确保生成任务 合理+可执行。仅保留通过验证的任务。5. 目标重写 (Goal Rewrite)
难例挖掘:隐藏Guideline细节,利用Rewrite Hints (参数/前提条件) 调整目标描述。课程生成:生成不同难度层级 (简单指令到抽象意图,构建多样化训练集。
F_task 映射的三要素
Executability (可执行性):合法+能通过验证,避免噪声监督。Diversity (多样性):覆盖不同的实体、动作和约束,防止坍缩到简单模板。Relevance (相关性):任务语义和难度应与目标评估环境相关,避免跑题。AppWorld 合成625个任务。

✍️实验设置
基础模型
训练任务/数据
CuES 框架自主生成,无人工种子任务。 AppWorld:模拟手机操作环境,生成API调用任务。WebShop:模拟电商购物,生成搜索与购买任务。BFCL v3:函数调用任务。(Task, Trajectory)对。多样性和可执行性 (Executability)。评测任务/数据
TGC , 未评估 SGC 。Test Normal ,未评估 Test ChallengeScore (平均得分), SR (Success Rate)AST Accuracy, Executable Accuracy算法/策略
阶段3高质量成功轨迹做微调 (Behavior Cloning)。可执行任务作为环境做训练,解决任务稀疏问题。超参
🍑关键结果
AppWorld (Test Normal - TGC指标)
45.24% (Greedy), 45.54% (avg@8)WebShop (Score)
64.10%,超过Baseline: Qwen2.5-14B 23分,Qwen3-32B 36分。BFCL v3 (Multi-Turn Base)
44.15%DeepSeek-V3 43分, GPT-4o-mini 43分。多样性与分布 (t-SNE & Metrics)
覆盖原始数据分布,且漂移很小,保证了相关性。比原始数据更广,自冗余度更低,说明生成了多样化购物意图。可执行性显著提升 (如在AppWorld上从0.61->0.72)。
⛳ 未来方向
On-Policy Synthesis
离线生成数据。在线合成策略,训练时根据当前能力 动态生成适合自己的任务。环境特定的奖励模型
Reward Model,解决稀疏奖励问题。跨域适应
更开放、非结构化环境(如通用OS操作)中的有效性。