Skip to content

AppWorld 上下文相关

📅 发表于 2026/03/16
🔄 更新于 2026/03/16
👁️ -- 次访问
📝 0 字
0 分钟
Appworld-Context
#PAACE
#ACE
#Remember Me
#Refine Me
#ACON

(2512) PAACE: A Plan-Aware Automated Agent Context Engineering Framework

🌺 论文摘要

PAACE 论文摘要

参考链接

核心方法 (Plan-Aware Automated Context Engineering)

  • PAACE框架:一种计划感知上下文工程框架。
  • PAACE-Syn合成工作流生成器,基于Next-k任务相关性,生成带压缩监督信号的轨迹。
  • PAACE-FT:将Teacher (GPT-120B) 的压缩能力蒸馏给Student (4B),实现低成本部署。
  • 关键机制Next-k 任务预测 + 计划结构分析 + 指令联合优化 + 功能保留性压缩

模型效果 (PAACE-FT 蒸馏模型)

  • AppWorld:平均准确率(Acc)达 59.00,优于无压缩基线(56.00)及SOTA压缩方法ACON(56.50)。
  • OfficeBench:准确率达 78.10,且Context依赖量(Dependency)从4.43M降至1.64M。
  • 8-Objective QA:EM达 0.402,F1达 0.512,优于所有基线。

重要结论

  • Next-k 任务相关性对于长程Agent至关重要,k=23通常足够。
  • 压缩即正则化:移除无关信息不仅省钱,还能减少注意力分散,提升准确率
  • 蒸馏有效性:Student模型保留了Teacher 97% 的性能,推理成本降低一个数量级。

关键贡献

  • 提出了Plan-Aware (计划感知) 的上下文压缩理念,并发布了合成数据生成框架PAACE-Syn

问题背景

问题背景

现有上下文管理的局限

Context Rot (上下文腐烂)

  • 即使是1M+ token窗口的模型,当上下文中充斥着无关信息、噪音或过时状态时,推理质量也会下降(Attention Dilution)。
  • 现代Agent失败往往是Context Failure而非模型能力不足。

现有方法的不足

  • Summarization (如BART, FLAN-T5):往往展平了因果链,丢失多步推理所需的结构。
  • Query-Aware (如Self-RAG, LLMLingua):仅针对当前查询优化,忽略了未来计划(Plan)多步依赖
  • Prompt Engineering:侧重初始指令,缺乏对执行过程中动态状态的持续优化。

PAACE 框架概览

📕核心方法

PAACE: Plan-Aware Context Engineering

核心思想

  • 将上下文工程视为一个状态压缩策略学习问题。
  • Plan-Aware:压缩不仅仅看历史,还要基于Current PlanNext-k Tasks
  • 操作算子:不仅是剪枝(Pruning),还包含重写(Rewriting)摘要指令微调(Refinement)

PAACE-Syn (数据生成)

  • 生成器:利用Teacher模型 (GPT-OSS-120B) 生成大量合成Agent工作流。
  • 压缩监督
    • Teacher根据Next-k步骤的计划,对当前Context进行压缩。
    • 质量控制:要求压缩后的Context在执行结果上与全量Context语义等效 (Semantic Equivalence 0.85)。
    • 数据量:生成了约120万条工作流,95亿token。

PAACE-FT (模型蒸馏)

  • 目标:训练一个轻量级Student模型 (如Qwen3-4B) 来模仿Teacher的压缩策略。
  • 输入Next-k 任务指令 + 当前全量 Context
  • 输出压缩后的 Context
  • 优势:部署时无需大模型Teacher,推理快,成本低。

实验设置

✍️实验设置

实验设置

基础模型

  • Teacher (用于数据生成): GPT-OSS-120B (64k context)
  • Student (用于实际评测): Qwen3-4B-Instruct (蒸馏后的PAACE-FT)
  • Agent Backbone: 所有对比实验使用统一的执行Backbone,仅改变Context管理策略。

评测任务/数据

  • AppWorld: 多App交互,异构观察空间。难点在于跨应用状态追踪。
  • OfficeBench: 文档中心的工具链操作。
  • 8-Objective QA: 多跳检索QA,涉及工具搜索。

对比基线

  • No Compression (全量历史)
  • FIFO (保留最近k轮)
  • Retrieval (Embedding检索)
  • LLMLingua (Token级压缩)
  • ACON (SOTA,基于自然语言反馈的上下文优化)

核心指标

  • Acc / EM / F1: 任务性能。
  • Peak: 峰值上下文长度。
  • Dependency: 累积注意力负载 (Cumulative Attention Load),反映总计算成本。

关键结果

🍑关键结果

模型效果

AppWorld (Average Acc)

  • PAACE (59.00) > ACON UTCO (56.50) > No Compression (56.00) > LLMLingua (39.30)
  • 资源消耗:PAACE的Peak Token为 6.23k (vs No Comp 9.93k),Dependency降至 3.75M (vs No Comp 5.96M)。
  • 结论:在最复杂的长程任务上,PAACE不仅省流,而且显著提升了准确率。

OfficeBench (Acc)

  • PAACE (78.10) > No Compression (76.84) > ACON UT (74.74)
  • 资源消耗:Dependency降至 1.64M (vs No Comp 4.43M),推理成本降低60%+

8-Objective QA (EM / F1)

  • PAACE (0.402 / 0.512) 优于所有基线。
  • No Compression 在此任务上表现尚可(EM 0.366),但PAACE通过去除噪音进一步提升了检索准确性。

消融实验 (Next-k 的 k 值)

  • AppWorld: k=2 (59.0) > k=3 (58.6) > k=1 (56.5)。工具类任务适度前瞻即可。
  • QA任务: k=3 效果最好,因为证据往往在检索后几步才被消费。

未来方向

未来方向

未来方向

跨域泛化

  • 目前PAACE主要针对特定Benchmark生成合成数据训练,未来需探索跨领域的通用压缩策略。

安全性与形式化验证

  • 当前依靠Embedding相似度和LLM裁判来保证压缩质量,未来需要引入符号化检查形式化验证,确保关键约束在压缩中不丢失。

指令-上下文联合深度优化

  • 目前指令微调是隐式的,未来可将Instruction Refinement作为一个独立的显式目标进行联合优化。

(2512) (通义) Remember Me, Refine Me: A Dynamic Procedural Memory Framework for Experience-Driven Agent Evolution

🌺 论文摘要

ReMe 论文摘要

参考链接

核心方法ReMe (Remember Me, Refine Me) 框架

  • 多维度提取:从轨迹中提取成功模式失败教训对比洞察,而非存储原始轨迹。
  • 上下文自适应重用场景感知检索 + 重排序 + 自适应重写,将历史经验转化为当前任务指引。
  • 基于效用的精炼选择性添加(仅保留高质量经验)+ 故障感知反思 + 基于效用的删除(修剪高频检索但低效用的条目)。

模型效果 (AppWorld Test-Normal, TGC,ean@4 指标)

  • ReMe(Dynamic):Qwen3-8B 24分,Qwen3-14B 34分,Qwen3-32B 42分
  • 相比无记忆其他记忆均有提升。

关键贡献

  • 提出了闭环的 ReMe 框架,解决了现有记忆系统“被动积累”和“噪声退化”的问题。
  • 发布了 reme.library 数据集,包含细粒度的程序性记忆(成功模式与失败教训)。

问题背景(现有记忆框架存在局限)

问题背景

现有记忆框架的局限性

被动积累范式

  • 现有Agent记忆框架大多将记忆视为静态的追加式档案
  • 存储形式:原始轨迹粗粒度摘要
  • 缺陷
    • 噪声干扰:粗粒度经验包含无关信息阻碍核心逻辑提取。
    • 缺乏适配不做调整直接套用检索到的经验,导致在稍有变化场景下失效
    • 退化问题缺乏更新/删除机制,积累大量低效或有毒条目

理想记忆系统的标准

  • 高质量提取:提取通用、可重用的知识,而非特定问题的观察
  • 任务落地利用:根据当前任务需求动态调整检索到的记忆。 这也太难了吧。
  • 渐进式优化:自主强化有效条目修剪过时条目

核心方法(ReMe框架,Acquisition-Reuse-Refinement)

📕核心方法

ReMe 框架 (Acquisition-Reuse-Refinement)

1. 经验获取 (Experience Acquisition)

  • 多维度记录:不仅记录成功经验,还做成功模式识别失败原因分析高低分轨迹对比分析
  • 结构化存储:经验表示为 E=ω,e,κ,c,τ适用场景+内容+关键词+置信度+工具
  • 质量控制:使用 LLM-as-a-Judge 进行验证,并进行去重

2. 经验重用 (Experience Reuse)

  • 场景感知检索:基于使用场景 (ω) 的 Embedding 做检索,而非仅匹配Task Query
  • 自适应重写Rerank+ Rewrite
    • 将检索的多条经验重组为针对当前任务连贯指导,而非简单拼接。

3. 经验精炼 (Experience Refinement)

  • 选择性添加成功轨迹的经验 + 故障感知反思修正后的成功经验。
  • 基于效用做删除:跟踪经验的检索次数 (f) 和效用值 (u, 助攻成功的次数)。
  • 删除公式:当检索次数 fα 且 效用率 u/f<β 时,移除该经验。

实验设置

✍️实验设置

实验设置

基础模型

  • Qwen3 系列 (8B, 14B, 32B Instruct)。

评测任务/数据

  • BFCL-V3:金融类多轮工具调用任务。
    • 训练:50个随机任务;测试:150个任务。
  • AppWorld (Test-Normal):模拟日常数字交互的复杂Agent任务。
    • 训练:90个任务;测试:168个任务 (Test-Normal set)。

指标说明

  • Avg@4:4次独立运行的平均任务成功率 (Task Goal Completion)。
  • Pass@4:4次运行中至少成功1次的概率(反映探索上限)。

对比基线

  • No Memory:无记忆基线。
  • A-Mem (2025):构建记忆中心知识图谱。
  • LangMem (2025):LangChain 的长短期记忆模块。

关键结果

🍑关键结果

关键结果

模型效果 (BFCL-V3)

  • Qwen3-8B
    • No Memory: Avg@4 40.33% / Pass@4 59.55%。
    • ReMe (Dynamic): Avg@4 45.17% / Pass@4 68.00%。
    • 超越了: A-Mem (41.22%)LangMem (44.11%)

模型效果 (AppWorld Test-Normal, TGC,ean@4 指标)

  • ReMe(Dynamic):Qwen3-8B 24分,Qwen3-14B 34分,Qwen3-32B 42分
  • 相比无记忆或其他记忆均有提升。

消融实验

  • Keypoint-level 提取比 Trajectory-level 带来约 4-6% 的性能提升。
  • Selective Addition(选择性添加)比 Full Addition 效果好(避免低质量失败经验污染)。
  • Utility-based Deletion(删除机制)对维持长期性能至关重要。

未来方向

未来方向

未来方向
  • 更强的 Summarizer:使用更强模型 Summarizer(32B) 可进一步提升 8B Executor表现。
  • 检索数量的平衡:检索经验数量 K 存在饱和点(如 K=5),过多会导致噪声干扰。
  • 终身学习效率:验证了 Self-evolving memory 是实现 Agent 终身学习的高效途径,未来可探索在更长周期、更开放域任务中的表现。

(2510) Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models

🌺 论文摘要

ACE 论文摘要

参考链接

核心方法

  • ACE (Agentic Context Engineering):一种将Context视为动态进化Playbook的框架。
  • Agentic 架构
    • Generator:生成轨迹。
    • Reflector:基于轨迹反思,提取Insight。
    • Curator:将Insight转化为结构化的Delta(增量)更新,维护Context。
  • 核心机制
    • 增量更新:防止全量重写导致的Context Collapse(上下文坍塌)。
    • 无监督进化:支持在无Ground Truth标签下,仅凭执行反馈进行自我改进。

模型效果 (DeepSeek-V3.1)

  • Agent任务 (AppWorld)
    • 综合表现Offline ACE 平均TGC达 59.4%Online ACE59.5%,远超Base (42.4%)。
    • SOTA对比:在更难的 Test-Challenge 分割上,ACE击败了榜单第一的 IBM CUGA (GPT-4)
  • 金融领域 (FiNER/Formula):平均准确率提升 8.6% (Offline)。
  • 效率:适配延迟降低约 87%,Token成本显著低于全量重写方法。

重要结论

  • 结构化的Playbook比通用的Prompt指令更有效,能保留领域细节。
  • Context Collapse是长文本优化的主要瓶颈,增量更新是有效解法。
  • 小模型(DeepSeek)配合高质量进化的Context,可以匹敌甚至超越大模型(GPT-4)Agent。

问题背景

问题背景

现有方法的局限性

Context Adaptation 的挑战

  • 现有方法(如MIPRO, OPRO, Reflexion)通常通过重写整个Prompt来优化。
  • Brevity Bias (简短偏差):优化过程倾向于生成简短、笼统的建议,丢弃关键的领域细节。
  • Context Collapse (上下文坍塌)
    • 这是一个严重的退化现象。例如在AppWorld实验中,Context长度从18k token被压缩到122 token,导致准确率从 66.7% 暴跌至 57.1%,甚至低于不优化的基线。

📕核心方法

ACE 框架架构

Agentic Context Engineering (ACE)

Playbook (剧本) 结构

  • Context被组织成带有ID的结构化条目 (Bullets),包含策略、代码片段、易错点等。

三个角色分工

  • Generator (执行者):利用Playbook生成推理和代码,产出执行轨迹。
  • Reflector (反思者):分析轨迹(成功或失败),生成具体的Insights。支持利用Execution Feedback(如代码报错)在无标签情况下工作。
  • Curator (策展人):将Insights转化为具体的编辑操作(ADD, UPDATE, DELETE),以增量Delta的方式更新Playbook,而非重写全文。

关键机制

增量更新与管理
  • Delta Updates:仅对Playbook进行局部修改。这不仅避免了信息丢失,还支持并行处理(Batch size > 1),大幅降低Token成本。
  • Grow-and-Refine
    • Grow:持续积累新策略。
    • Refine:当Context过长时,利用Embedding相似度合并冗余条目,保持Playbook精炼。

实验设置

✍️实验设置

实验设置

基础模型

  • DeepSeek-V3.1 (Non-thinking mode):用于所有组件(Generator/Reflector/Curator),确保公平对比。

基线方法

  • ReAct (Base LLM)
  • ICL (In-Context Learning)
  • MIPROv2 / GEPA (Prompt优化算法)
  • Dynamic Cheatsheet (DC) (动态记忆机制)

评测任务

  • AppWorld: 复杂的Agent基准测试,涉及API调用、代码生成。
    • 指标:TGC (Task Goal Completion, 任务完成率), SGC (Step Goal Completion, 步骤完成率)。
    • 分割:Test-Normal (普通难度), Test-Challenge (高难度)。
  • FiNER / Formula: 金融领域的实体提取与数值推理。

关键结果

🍑关键结果

AppWorld (Agent) 详细结果

1. 整体性能大幅提升

  • ReAct Base: 平均 TGC 42.4%
  • ReAct + ACE (Offline, 有标签): 平均 TGC 59.4% (+17.0%)
  • ReAct + ACE (Online, 无标签): 平均 TGC 59.5% (+17.1%)

2. Test-Normal vs Test-Challenge (难度分层) ACE 在高难度任务上提升尤为明显:

  • Test-Normal (普通):
    • Base: TGC 63.7 / SGC 42.9
    • ACE (Offline): TGC 76.2 (+12.5) / SGC 64.3 (+21.4)
  • Test-Challenge (困难):
    • Base: TGC 41.5 / SGC 21.6
    • ACE (Offline): TGC 57.3 (+15.8) / SGC 39.6 (+18.0)
    • ACE (Online): TGC 66.0 (+24.5) / SGC 48.9 (+27.3)
    • 注:Online模式下,ACE通过实时学习在困难任务上表现极佳。

3. 与 SOTA (IBM CUGA) 对比

  • IBM CUGA 是榜单第一的生产级Agent,基于 GPT-4
  • ACE (DeepSeek) 尽管使用开源小模型,但在 Test-Challenge 上击败了 CUGA:
    • TGC: ACE (Online) 66.0 vs CUGA 57.6 (ACE +8.4%)
    • SGC: ACE (Online) 48.9 vs CUGA 48.2 (ACE +0.7%)
金融领域结果 & 效率

金融任务 (FiNER & Formula)

  • Formula: Base 67.5% -> ACE 85.5% (+18.0%)
  • FiNER: Base 70.7% -> ACE 78.3% (+7.6%)

无监督学习能力

  • 在没有Ground Truth标签的情况下(仅靠代码执行反馈):
    • AppWorld: ACE 仍能达到 平均 TGC 57.2% (Offline) / 59.5% (Online),相比有标签版本几乎无损,甚至在在线模式下更好。

效率

  • 延迟: 相比 GEPA 降低 86.9% (Offline Adaptation)。
  • 成本: 相比 Dynamic Cheatsheet,Online Adaptation 的成本降低了约 6倍

未来方向

未来方向

总结与展望

核心优势

  • ACE 证明了通过结构化、增量式的 Context 维护,可以让小模型(DeepSeek)在复杂Agent任务上发挥出超越大模型(GPT-4)的性能。
  • 解决了长Context优化中的"坍塌"问题,为长时间运行的Agent提供了一种可靠的记忆进化机制。

局限与展望

  • 目前主要依赖文本形式的Playbook,未来可扩展至多模态(Visual Context)。
  • 即使是简单的执行反馈(成功/失败)也能驱动强大的自我进化,这为低资源环境下的Agent自学习提供了新思路。

(2510) ACON OPTIMIZING CONTEXT COMPRESSION FOR LONG-HORIZON LLM AGENTS

🌺 论文摘要

ACON 论文摘要

参考链接

核心方法

  • ACON框架:针对长程Agent的历史(History)观测(Observation)进行双重压缩。
  • 自然语言梯度优化
    • 基于失败驱动(Failure-driven)机制。
    • 对比全量上下文成功但在压缩上下文失败的轨迹。
    • LLM分析失败原因,迭代更新压缩指南(Guideline)
  • 两阶段优化UT(最大化效用) + CO(最大化压缩率)。
  • 蒸馏(Distillation):将GPT-4优化的压缩器蒸馏到小模型(如Qwen-14B)以降低成本。

模型效果

  • AppWorld, OfficeBench, Multi-objective QA上验证。
  • 峰值Token减少:降低26-54%的显存占用。
  • 小模型Agent提升:消除噪音上下文后,Qwen-14B等小模型Agent性能提升高达46%
  • AppWorld Test-Normal GPT5-Chat TGC 66分。
  • 蒸馏效果:蒸馏后的小模型压缩器保留了教师模型95%以上的性能。

重要结论

  • 压缩不只是为了省钱,更能提升小模型Agent的效果(减少Distraction)。
  • 通用Prompt不够用,针对环境特性的动态指南优化至关重要。
  • 观测压缩(Observation Compression)与历史压缩同样重要且有效。

关键贡献

  • 提出ACON:一种通用的、基于梯度的无参数(Gradient-free)上下文优化框架。

问题背景(长任务的上下文爆炸)

问题背景

问题背景

上下文无限增长

  • Agent在真实环境(如操作系统/Web)交互时,累积大量ActionObservation
  • Token推理成本 随长度线性或二次增长
  • Lost-in-the-Middle:上下文包含大量噪音,导致LLM注意力分散,决策质量下降。

现有压缩方法的局限

  • 检索(RAG):适用于单步QA,但容易丢失长程任务中的状态变化多步依赖
  • FIFO/截断:直接丢弃早期信息,导致关键ID或环境状态丢失
  • 通用摘要缺乏针对特定任务的敏感度(不知保留哪个API的返回值)。
  • 现有Agent压缩工作(如LLMLingua) 通常只关注Prompt压缩未解决动态交互历史的问题。

📕核心方法

Agent上下文压缩流程

ACON (Agent Context Optimization)

核心思想

  • 引入一个独立的压缩器(Compressor)模块。
  • 不用固定Prompt,而是通过优化算法学习出针对特定环境的压缩指南(Guideline)
  • 支持历史压缩(将过去交互总结为摘要)和观测压缩(精简当前环境返回的冗长日志)。

无梯度优化流程 (Guideline Optimization)

  • 无梯度:完全在自然语言空间进行。

  • 数据构建:收集轨迹对,τfull (使用全量上下文成功) 和 τcompress (使用当前压缩策略失败)。

  • 优化步骤

    • 分析:让LLM对比成功和失败的轨迹,找出因压缩而丢失的关键信息(如文件名/错误提示)
    • 更新基于分析结果修改压缩器的System Prompt,要求保留特定类型的信息。
  • 两阶段策略

    • UT (Utility Maximization):优先保证压缩后的上下文能让Agent成功完成任务
    • CO (Compression Optimization):在保证成功率的前提下,进一步精简Prompt长度

压缩器蒸馏

压缩器蒸馏 (Distillation)

动机

  • 引入额外的LLM做压缩会增加延迟和成本。
  • 历史压缩虽然减少了Agent的输入Token,但压缩过程本身需要处理长文本

方法

  • 使用GPT-4作为教师压缩器,利用优化后的指南生成高质量压缩数据
  • 使用LoRA微调小模型(如Qwen3-14B, Phi-4, Qwen3-8B)作为专用压缩器
  • 效果小模型压缩器能达到教师模型95%的效果,且推理速度快、成本低。

实验设置

✍️实验设置

实验设置

基础模型

  • Agent: GPT-4.1 (主要), GPT-4.1-mini, Qwen3-14B-Instruct
  • Compressor: GPT-4.1 (教师), Qwen3, Phi-4 (学生)
  • Optimizer: OpenAI o3 (用于优化指南)

评测任务

  • AppWorld: 复杂日常任务,涉及9个App,平均42.5步。
  • OfficeBench: 办公自动化,多文件处理。
  • 8-objective QA: 多目标长程问答。

基线方法

  • No Compression (全量上下文)
  • FIFO (仅保留最近k轮)
  • Retrieval (基于Embedding检索相关历史)
  • LLMLingua (基于困惑度的Token剪枝)
  • Naive Prompting (通用摘要Prompt)

评价指标

  • Task Accuracy (成功率)
  • Peak Tokens (峰值Token数)
  • Dependency (累积Token依赖,衡量总计算量)

关键结果

🍑关键结果

关键结果(ACON: GPT-4.1+GPT5等 + 小模型蒸馏)

🍑关键结果

关键结果

模型效果(AppWorld, OfficeBench, QA)

  • 显存占用大幅降低:在AppWorld、OfficeBench和QA任务上,峰值Token使用量减少了26% - 54%
  • 大模型保持性能GPT-4.1在大幅压缩上下文的同时,准确率(Accuracy)与不压缩的基线持平。
  • 小模型逆势提升
    • 对于Qwen3-14BGPT-4.1-mini,压缩后的性能显著优于全量上下文。
    • 在AppWorld上,Qwen3-14B准确率从26.8%提升至33.9%GPT-4.1-mini提升了30%

重要结论

  • 压缩是小模型的均衡器:长上下文中的噪音会干扰小模型,ACON通过移除无关信息,实际上起到了去噪作用,使小模型能处理更长周期的任务。
  • 蒸馏损耗极低:将GPT-4优化的压缩指南蒸馏给小模型(如Phi-4, Qwen3-8B/14B),能保留95%以上的压缩性能。
  • 观测压缩(Observation Compression)不可忽视:不仅历史记录需要压缩,环境返回的冗长观测数据(如API返回的大Json)压缩后收益巨大。

关键贡献

  • ACON框架:提出基于自然语言梯度的优化方法(分析失败案例 -> 更新压缩Prompt),无需训练Agent即可适配各种环境。
  • 两阶段优化策略UT(最大化效用) + CO(最大化压缩率),在保证任务成功率的前提下极致压缩。

未来方向

未来方向

未来方向

KV Cache 压缩

  • 当前方法是Token层面的压缩,导致Transformers的KV Cache失效(每次都要重新计算压缩后的Prompt)。
  • 未来方向:结合KV Cache EvictionSystem 2 记忆模块,实现更底层的加速。

成本权衡

  • 历史压缩虽然减少了Agent的输入,但增加了压缩器的计算开销(Total Cost可能不降反升)。
  • 观测压缩(Observation Compression)性价比最高,直接减少源头数据量。
  • 需要更高效的端侧小模型来专门执行压缩任务。

模型泛化

  • 目前主要验证了GPT系列和Qwen系列,未来需在DeepSeek-R1、Claude等模型上验证该框架的通用性。

(2506) Leveraging In-Context Learning for Language Model Agents

🌺 论文摘要

论文摘要

参考链接

核心方法

  • 迭代自动轨迹标注
    • 现有标注作为示例辅助解决未标注任务,生成ReAct轨迹或Plan-and-Execute计划。
  • 样例选择策略
    • 任务级轨迹:使用Set-BSR选择一组涵盖推理模式的完整轨迹。
    • 片段级演示:基于当前推理步骤 检索相关小片段,解决上下文限制问题。

模型效果(GPT-4o, AppWorld)

  • Test-Normal TGC 指标达65.9
  • Set-BSR选择2条轨迹做示例,比零样本 提升30.7pt、比固定样本 提升15pt
  • 结合轨迹样例片段演示Prompted GPT-4o,效果媲美经SFT或RL的模型。

重要结论

  • 轨迹演示提高了Agent的可靠性(多次运行一致性)和鲁棒性(新场景)。
  • 片段演示能以极低推理成本带来性能提升,是完整轨迹的有效补充

关键贡献

  • Agent任务的ICL框架自动标注+动态示例选择(任务示例+推理snippet),提升效果。
  • 解决了长轨迹上下文受限和成本高昂的问题。

问题背景

问题背景

问题背景

ICL 在 Agent 任务中存在挑战

  • 虽然上下文学习在预测和生成任务中有效,但在需顺序决策Agent任务应用困难
  • 难点:如何大规模标注长轨迹、如何选择示例、上下文窗口限制如何放置这些示例。

现有方法的局限

  • 固定Prompt(无法利用训练数据),微调/RL成本高昂难更新知识)。
  • 即使有训练数据,通常也缺乏可用作演示详细解决方案轨迹

📕核心方法

自动轨迹标注

迭代式标注算法

流程

  • 利用LLM作为Solver,结合重试机制样例选择,自动为训练任务生成解决方案轨迹
  • 迭代过程:新标注任务会被加入演示池辅助标注剩余未标注任务,提高效率和成功率。

适用性

  • 该算法适用于不同类型的Solver
    • 如生成ReAct轨迹Plan-and-Execute (PnE)的子任务计划。

样例选择与放置策略

不同粒度的样例

1. 完整任务轨迹 (Task Trajectories)

  • 内容:相似任务的完整执行过程Thought, Action, Observation)。
  • 位置:置于Prompt的前部(General Context)。
  • 选择方法
    • Ranking-based:使用Cosine SimilarityBERTScore-Recall选择Top-K
    • Set Selection (Set-BSR):选择一组覆盖多种推理模式的轨迹,效果优于独立选择。

2. 片段演示 (Snippets)

  • 动机完整轨迹成本高且存在近因效应Recency Bias,模型更关注末尾信息)。
  • 内容:与当前步骤推理(Thought)相关的小片段(Thought-Action-Observation)。
  • 位置:动态追加在当前执行轨迹之后(Prompt末尾)。
  • 优势:极低的Token开销,针对性强,缓解近因偏差。

3. 子任务轨迹 (Subtask Trajectories)

  • 配合Plan-and-Execute求解器使用,为拆解后的子任务提供对应的轨迹演示。

实验设置

✍️实验设置

实验设置

基础模型

  • GPT-4o:用于标注和主要的ICL实验。
  • GPT-4o-mini:用于验证大模型标注是否能迁移提升小模型。

测试基准 AppWorld

  • 数据集:Test-Normal (168个任务,分布内) 和 Test-Challenge (417个任务,含未见App)。

评估指标

  • TGC (Task Goal Completion):任务完成率。
  • SGC (Scenario Goal Completion):场景完成率(衡量鲁棒性)。
  • RTGC (Reliability):多次运行成功的比例(衡量可靠性)。
  • Efficiency:Token消耗量和步数。

关键结果(ACON: GPT-4.1 + 小模型蒸馏)

🍑关键结果

关键结果

模型效果(AppWorld, OfficeBench, QA)

  • 显存占用大幅降低:在AppWorld、OfficeBench和QA任务上,峰值Token使用量减少了26% - 54%
  • 大模型保持性能GPT-4.1在大幅压缩上下文的同时,准确率(Accuracy)与不压缩的基线持平。
  • 小模型逆势提升
    • 对于Qwen3-14BGPT-4.1-mini,压缩后的性能显著优于全量上下文。
    • 在AppWorld上,Qwen3-14B准确率从26.8%提升至33.9%GPT-4.1-mini提升了30%

重要结论

  • 压缩是小模型的均衡器:长上下文中的噪音会干扰小模型,ACON通过移除无关信息,实际上起到了去噪作用,使小模型能处理更长周期的任务。
  • 蒸馏损耗极低:将GPT-4优化的压缩指南蒸馏给小模型(如Phi-4, Qwen3-8B/14B),能保留95%以上的压缩性能。
  • 观测压缩(Observation Compression)不可忽视:不仅历史记录需要压缩,环境返回的冗长观测数据(如API返回的大Json)压缩后收益巨大。

关键贡献

  • ACON框架:提出基于自然语言梯度的优化方法(分析失败案例 -> 更新压缩Prompt),无需训练Agent即可适配各种环境。
  • 两阶段优化策略UT(最大化效用) + CO(最大化压缩率),在保证任务成功率的前提下极致压缩。

未来方向

未来方向

未来方向

成本与性能的权衡

  • 随着上下文增加,虽可以放更多轨迹,但成本也会增高
  • 未来的方向可能是更智能地混合使用长轨迹短Snippet

跨模型迁移

  • 表面大模型(GPT-4o)生成的标注可以有效提升较小模型(GPT-4o-mini)的性能。
  • 这为通过大模型蒸馏 提升小模型Agent能力指明了方向。
总访客数:   ·   总访问量:
PLM's Blog @ 2016 - 2026