(2512) PAACE: A Plan-Aware Automated Agent Context Engineering Framework
🌺 论文摘要
参考链接
核心方法 (Plan-Aware Automated Context Engineering)
PAACE框架:一种计划感知的上下文工程框架。PAACE-Syn:合成工作流生成器,基于Next-k任务相关性,生成带压缩监督信号的轨迹。PAACE-FT:将Teacher (GPT-120B) 的压缩能力蒸馏给Student (4B),实现低成本部署。关键机制:Next-k 任务预测+计划结构分析+指令联合优化+功能保留性压缩。
模型效果 (PAACE-FT 蒸馏模型)
- AppWorld:平均准确率(Acc)达 59.00,优于无压缩基线(56.00)及SOTA压缩方法ACON(56.50)。
- OfficeBench:准确率达 78.10,且Context依赖量(Dependency)从4.43M降至1.64M。
- 8-Objective QA:EM达 0.402,F1达 0.512,优于所有基线。
重要结论
Next-k 任务相关性对于长程Agent至关重要,k=2或3通常足够。压缩即正则化:移除无关信息不仅省钱,还能减少注意力分散,提升准确率。蒸馏有效性:Student模型保留了Teacher 97% 的性能,推理成本降低一个数量级。
关键贡献
- 提出了
Plan-Aware(计划感知) 的上下文压缩理念,并发布了合成数据生成框架PAACE-Syn。
问题背景
❓问题背景
Context Rot (上下文腐烂)
- 即使是1M+ token窗口的模型,当上下文中充斥着无关信息、噪音或过时状态时,推理质量也会下降(Attention Dilution)。
- 现代Agent失败往往是
Context Failure而非模型能力不足。
现有方法的不足
Summarization (如BART, FLAN-T5):往往展平了因果链,丢失多步推理所需的结构。Query-Aware (如Self-RAG, LLMLingua):仅针对当前查询优化,忽略了未来计划(Plan)和多步依赖。Prompt Engineering:侧重初始指令,缺乏对执行过程中动态状态的持续优化。
PAACE 框架概览
📕核心方法
核心思想
- 将上下文工程视为一个
状态压缩策略学习问题。 Plan-Aware:压缩不仅仅看历史,还要基于Current Plan和Next-k Tasks。操作算子:不仅是剪枝(Pruning),还包含重写(Rewriting)、摘要和指令微调(Refinement)。
PAACE-Syn (数据生成)
生成器:利用Teacher模型 (GPT-OSS-120B) 生成大量合成Agent工作流。压缩监督:- Teacher根据
Next-k步骤的计划,对当前Context进行压缩。 质量控制:要求压缩后的Context在执行结果上与全量Context语义等效(Semantic Equivalence)。 数据量:生成了约120万条工作流,95亿token。
- Teacher根据
PAACE-FT (模型蒸馏)
目标:训练一个轻量级Student模型 (如Qwen3-4B) 来模仿Teacher的压缩策略。输入:Next-k 任务指令+当前全量 Context。输出:压缩后的 Context。优势:部署时无需大模型Teacher,推理快,成本低。
实验设置
✍️实验设置
基础模型
- Teacher (用于数据生成): GPT-OSS-120B (64k context)
- Student (用于实际评测): Qwen3-4B-Instruct (蒸馏后的PAACE-FT)
- Agent Backbone: 所有对比实验使用统一的执行Backbone,仅改变Context管理策略。
评测任务/数据
- AppWorld: 多App交互,异构观察空间。难点在于跨应用状态追踪。
- OfficeBench: 文档中心的工具链操作。
- 8-Objective QA: 多跳检索QA,涉及工具搜索。
对比基线
No Compression(全量历史)FIFO(保留最近k轮)Retrieval(Embedding检索)LLMLingua(Token级压缩)ACON(SOTA,基于自然语言反馈的上下文优化)
核心指标
Acc / EM / F1: 任务性能。Peak: 峰值上下文长度。Dependency: 累积注意力负载 (Cumulative Attention Load),反映总计算成本。
关键结果
🍑关键结果
AppWorld (Average Acc)
PAACE (59.00)>ACON UTCO (56.50)>No Compression (56.00)>LLMLingua (39.30)。- 资源消耗:PAACE的Peak Token为 6.23k (vs No Comp 9.93k),Dependency降至 3.75M (vs No Comp 5.96M)。
- 结论:在最复杂的长程任务上,PAACE不仅省流,而且显著提升了准确率。
OfficeBench (Acc)
PAACE (78.10)>No Compression (76.84)>ACON UT (74.74)。- 资源消耗:Dependency降至 1.64M (vs No Comp 4.43M),推理成本降低60%+。
8-Objective QA (EM / F1)
PAACE (0.402 / 0.512)优于所有基线。No Compression在此任务上表现尚可(EM 0.366),但PAACE通过去除噪音进一步提升了检索准确性。
消融实验 (Next-k 的 k 值)
AppWorld: k=2 (59.0) > k=3 (58.6) > k=1 (56.5)。工具类任务适度前瞻即可。QA任务: k=3 效果最好,因为证据往往在检索后几步才被消费。
未来方向
⛳ 未来方向
跨域泛化
- 目前PAACE主要针对特定Benchmark生成合成数据训练,未来需探索
跨领域的通用压缩策略。
安全性与形式化验证
- 当前依靠Embedding相似度和LLM裁判来保证压缩质量,未来需要引入
符号化检查或形式化验证,确保关键约束在压缩中不丢失。
指令-上下文联合深度优化
- 目前指令微调是隐式的,未来可将
Instruction Refinement作为一个独立的显式目标进行联合优化。
(2512) (通义) Remember Me, Refine Me: A Dynamic Procedural Memory Framework for Experience-Driven Agent Evolution
🌺 论文摘要
参考链接
核心方法ReMe (Remember Me, Refine Me) 框架
多维度提取:从轨迹中提取成功模式、失败教训和对比洞察,而非存储原始轨迹。上下文自适应重用:场景感知检索+重排序+自适应重写,将历史经验转化为当前任务指引。基于效用的精炼:选择性添加(仅保留高质量经验)+故障感知反思+基于效用的删除(修剪高频检索但低效用的条目)。
模型效果 (AppWorld Test-Normal, TGC,ean@4 指标)
- ReMe(Dynamic):Qwen3-8B
24分,Qwen3-14B34分,Qwen3-32B42分。 - 相比
无记忆或其他记忆均有提升。
关键贡献
- 提出了闭环的
ReMe 框架,解决了现有记忆系统“被动积累”和“噪声退化”的问题。 - 发布了
reme.library数据集,包含细粒度的程序性记忆(成功模式与失败教训)。
问题背景(现有记忆框架存在局限)
❓问题背景
被动积累范式
- 现有
Agent记忆框架大多将记忆视为静态的追加式档案。 - 存储形式:
原始轨迹或粗粒度摘要。 - 缺陷:
噪声干扰:粗粒度经验包含无关信息,阻碍核心逻辑提取。缺乏适配:不做调整直接套用检索到的经验,导致在稍有变化场景下失效。退化问题:缺乏更新/删除机制,积累大量低效或有毒条目。
理想记忆系统的标准
高质量提取:提取通用、可重用的知识,而非特定问题的观察。任务落地利用:根据当前任务需求动态调整检索到的记忆。 这也太难了吧。渐进式优化:自主强化有效条目,修剪过时条目。
核心方法(ReMe框架,Acquisition-Reuse-Refinement)
📕核心方法
1. 经验获取 (Experience Acquisition)
- 多维度记录:不仅记录成功经验,还做
成功模式识别、失败原因分析和高低分轨迹对比分析。 - 结构化存储:经验表示为
, 适用场景+内容+关键词+置信度+工具。 - 质量控制:使用
LLM-as-a-Judge进行验证,并进行去重。
2. 经验重用 (Experience Reuse)
- 场景感知检索:基于
使用场景() 的 Embedding做检索,而非仅匹配Task Query。 - 自适应重写:
Rerank+Rewrite。- 将检索的
多条经验重组为针对当前任务的连贯指导,而非简单拼接。
- 将检索的
3. 经验精炼 (Experience Refinement)
- 选择性添加:
成功轨迹的经验 +故障感知反思修正后的成功经验。 - 基于效用做删除:跟踪经验的
检索次数() 和 效用值(, 助攻成功的次数)。 - 删除公式:当检索次数
且 效用率 时,移除该经验。
实验设置
✍️实验设置
基础模型
Qwen3系列 (8B, 14B, 32B Instruct)。
评测任务/数据
- BFCL-V3:金融类多轮工具调用任务。
- 训练:50个随机任务;测试:150个任务。
- AppWorld (Test-Normal):模拟日常数字交互的复杂Agent任务。
- 训练:90个任务;测试:168个任务 (Test-Normal set)。
指标说明
- Avg@4:4次独立运行的平均任务成功率 (Task Goal Completion)。
- Pass@4:4次运行中至少成功1次的概率(反映探索上限)。
对比基线
- No Memory:无记忆基线。
- A-Mem (2025):构建记忆中心知识图谱。
- LangMem (2025):LangChain 的长短期记忆模块。
关键结果
🍑关键结果
模型效果 (BFCL-V3)
- Qwen3-8B:
No Memory: Avg@4 40.33% / Pass@4 59.55%。ReMe (Dynamic):Avg@4 45.17%/ Pass@4 68.00%。- 超越了:
A-Mem (41.22%)和LangMem (44.11%)。
模型效果 (AppWorld Test-Normal, TGC,ean@4 指标)
- ReMe(Dynamic):Qwen3-8B
24分,Qwen3-14B34分,Qwen3-32B42分。 - 相比无记忆或其他记忆均有提升。
消融实验
Keypoint-level提取比 Trajectory-level 带来约 4-6% 的性能提升。Selective Addition(选择性添加)比 Full Addition 效果好(避免低质量失败经验污染)。Utility-based Deletion(删除机制)对维持长期性能至关重要。
未来方向
⛳ 未来方向
- 更强的 Summarizer:使用更强模型 Summarizer(32B) 可进一步提升 8B Executor表现。
- 检索数量的平衡:检索经验数量
存在饱和点(如 ),过多会导致噪声干扰。 - 终身学习效率:验证了 Self-evolving memory 是实现 Agent 终身学习的高效途径,未来可探索在更长周期、更开放域任务中的表现。
(2510) Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models
🌺 论文摘要
参考链接
核心方法
ACE (Agentic Context Engineering):一种将Context视为动态进化Playbook的框架。Agentic 架构:Generator:生成轨迹。Reflector:基于轨迹反思,提取Insight。Curator:将Insight转化为结构化的Delta(增量)更新,维护Context。
核心机制:增量更新:防止全量重写导致的Context Collapse(上下文坍塌)。无监督进化:支持在无Ground Truth标签下,仅凭执行反馈进行自我改进。
模型效果 (DeepSeek-V3.1)
- Agent任务 (AppWorld):
- 综合表现:
Offline ACE平均TGC达59.4%,Online ACE达59.5%,远超Base (42.4%)。 - SOTA对比:在更难的
Test-Challenge分割上,ACE击败了榜单第一的 IBM CUGA (GPT-4)。
- 综合表现:
- 金融领域 (FiNER/Formula):平均准确率提升
8.6%(Offline)。 - 效率:适配延迟降低约
87%,Token成本显著低于全量重写方法。
重要结论
- 结构化的Playbook比通用的Prompt指令更有效,能保留领域细节。
- Context Collapse是长文本优化的主要瓶颈,增量更新是有效解法。
- 小模型(DeepSeek)配合高质量进化的Context,可以匹敌甚至超越大模型(GPT-4)Agent。
问题背景
❓问题背景
Context Adaptation 的挑战
- 现有方法(如MIPRO, OPRO, Reflexion)通常通过重写整个Prompt来优化。
- Brevity Bias (简短偏差):优化过程倾向于生成简短、笼统的建议,丢弃关键的领域细节。
- Context Collapse (上下文坍塌):
- 这是一个严重的退化现象。例如在AppWorld实验中,Context长度从18k token被压缩到122 token,导致准确率从
66.7%暴跌至57.1%,甚至低于不优化的基线。
- 这是一个严重的退化现象。例如在AppWorld实验中,Context长度从18k token被压缩到122 token,导致准确率从
📕核心方法
ACE 框架架构
Playbook (剧本) 结构
- Context被组织成带有ID的结构化条目 (Bullets),包含策略、代码片段、易错点等。
三个角色分工
- Generator (执行者):利用Playbook生成推理和代码,产出执行轨迹。
- Reflector (反思者):分析轨迹(成功或失败),生成具体的Insights。支持利用
Execution Feedback(如代码报错)在无标签情况下工作。 - Curator (策展人):将Insights转化为具体的编辑操作(
ADD,UPDATE,DELETE),以增量Delta的方式更新Playbook,而非重写全文。
关键机制
- Delta Updates:仅对Playbook进行局部修改。这不仅避免了信息丢失,还支持并行处理(Batch size > 1),大幅降低Token成本。
- Grow-and-Refine:
- Grow:持续积累新策略。
- Refine:当Context过长时,利用Embedding相似度合并冗余条目,保持Playbook精炼。
实验设置
✍️实验设置
基础模型
- DeepSeek-V3.1 (Non-thinking mode):用于所有组件(Generator/Reflector/Curator),确保公平对比。
基线方法
ReAct(Base LLM)ICL(In-Context Learning)MIPROv2/GEPA(Prompt优化算法)Dynamic Cheatsheet (DC)(动态记忆机制)
评测任务
- AppWorld: 复杂的Agent基准测试,涉及API调用、代码生成。
- 指标:TGC (Task Goal Completion, 任务完成率), SGC (Step Goal Completion, 步骤完成率)。
- 分割:Test-Normal (普通难度), Test-Challenge (高难度)。
- FiNER / Formula: 金融领域的实体提取与数值推理。
关键结果
🍑关键结果
1. 整体性能大幅提升
- ReAct Base: 平均 TGC
42.4% - ReAct + ACE (Offline, 有标签): 平均 TGC
59.4%(+17.0%) - ReAct + ACE (Online, 无标签): 平均 TGC
59.5%(+17.1%)
2. Test-Normal vs Test-Challenge (难度分层) ACE 在高难度任务上提升尤为明显:
- Test-Normal (普通):
- Base: TGC
63.7/ SGC42.9 - ACE (Offline): TGC
76.2(+12.5) / SGC64.3(+21.4)
- Base: TGC
- Test-Challenge (困难):
- Base: TGC
41.5/ SGC21.6 - ACE (Offline): TGC
57.3(+15.8) / SGC39.6(+18.0) - ACE (Online): TGC
66.0(+24.5) / SGC48.9(+27.3) - 注:Online模式下,ACE通过实时学习在困难任务上表现极佳。
- Base: TGC
3. 与 SOTA (IBM CUGA) 对比
- IBM CUGA 是榜单第一的生产级Agent,基于 GPT-4。
- ACE (DeepSeek) 尽管使用开源小模型,但在 Test-Challenge 上击败了 CUGA:
- TGC: ACE (Online)
66.0vs CUGA57.6(ACE +8.4%) - SGC: ACE (Online)
48.9vs CUGA48.2(ACE +0.7%)
- TGC: ACE (Online)
金融任务 (FiNER & Formula)
- Formula: Base
67.5%-> ACE85.5%(+18.0%) - FiNER: Base
70.7%-> ACE78.3%(+7.6%)
无监督学习能力
- 在没有Ground Truth标签的情况下(仅靠代码执行反馈):
- AppWorld: ACE 仍能达到 平均 TGC
57.2%(Offline) /59.5%(Online),相比有标签版本几乎无损,甚至在在线模式下更好。
- AppWorld: ACE 仍能达到 平均 TGC
效率
- 延迟: 相比 GEPA 降低
86.9%(Offline Adaptation)。 - 成本: 相比 Dynamic Cheatsheet,Online Adaptation 的成本降低了约 6倍。
未来方向
⛳ 未来方向
核心优势
- ACE 证明了通过结构化、增量式的 Context 维护,可以让小模型(DeepSeek)在复杂Agent任务上发挥出超越大模型(GPT-4)的性能。
- 解决了长Context优化中的"坍塌"问题,为长时间运行的Agent提供了一种可靠的记忆进化机制。
局限与展望
- 目前主要依赖文本形式的Playbook,未来可扩展至多模态(Visual Context)。
- 即使是简单的执行反馈(成功/失败)也能驱动强大的自我进化,这为低资源环境下的Agent自学习提供了新思路。
(2510) ACON OPTIMIZING CONTEXT COMPRESSION FOR LONG-HORIZON LLM AGENTS
🌺 论文摘要
参考链接
核心方法
ACON框架:针对长程Agent的历史(History)和观测(Observation)进行双重压缩。自然语言梯度优化:- 基于
失败驱动(Failure-driven)机制。 - 对比
全量上下文成功但在压缩上下文失败的轨迹。 - LLM分析失败原因,迭代更新
压缩指南(Guideline)。
- 基于
两阶段优化:UT(最大化效用) +CO(最大化压缩率)。蒸馏(Distillation):将GPT-4优化的压缩器蒸馏到小模型(如Qwen-14B)以降低成本。
模型效果
- 在
AppWorld,OfficeBench,Multi-objective QA上验证。 峰值Token减少:降低26-54%的显存占用。小模型Agent提升:消除噪音上下文后,Qwen-14B等小模型Agent性能提升高达46%。- AppWorld Test-Normal GPT5-Chat TGC 66分。
蒸馏效果:蒸馏后的小模型压缩器保留了教师模型95%以上的性能。
重要结论
压缩不只是为了省钱,更能提升小模型Agent的效果(减少Distraction)。通用Prompt不够用,针对环境特性的动态指南优化至关重要。观测压缩(Observation Compression)与历史压缩同样重要且有效。
关键贡献
- 提出
ACON:一种通用的、基于梯度的无参数(Gradient-free)上下文优化框架。
问题背景(长任务的上下文爆炸)
❓问题背景
上下文无限增长
- Agent在
真实环境(如操作系统/Web)交互时,累积大量Action和Observation。 Token推理成本随长度线性或二次增长。Lost-in-the-Middle:上下文包含大量噪音,导致LLM注意力分散,决策质量下降。
现有压缩方法的局限
检索(RAG):适用于单步QA,但容易丢失长程任务中的状态变化和多步依赖。FIFO/截断:直接丢弃早期信息,导致关键ID或环境状态丢失。通用摘要:缺乏针对特定任务的敏感度(不知保留哪个API的返回值)。- 现有Agent压缩工作(如
LLMLingua) 通常只关注Prompt压缩,未解决动态交互历史的问题。
📕核心方法
Agent上下文压缩流程
核心思想
- 引入一个独立的
压缩器(Compressor)模块。 不用固定Prompt,而是通过优化算法学习出针对特定环境的压缩指南(Guideline)。- 支持
历史压缩(将过去交互总结为摘要)和观测压缩(精简当前环境返回的冗长日志)。
无梯度优化流程 (Guideline Optimization)
无梯度:完全在自然语言空间进行。数据构建:收集轨迹对,
(使用 全量上下文成功) 和(使用 当前压缩策略失败)。优化步骤:
- 分析:让LLM
对比成功和失败的轨迹,找出因压缩而丢失的关键信息(如文件名/错误提示) - 更新:
基于分析结果,修改压缩器的System Prompt,要求保留特定类型的信息。
- 分析:让LLM
两阶段策略:
UT (Utility Maximization):优先保证压缩后的上下文能让Agent成功完成任务。CO (Compression Optimization):在保证成功率的前提下,进一步精简Prompt长度。
压缩器蒸馏
动机
- 引入额外的LLM做压缩会增加延迟和成本。
- 历史压缩虽然减少了Agent的输入Token,但
压缩过程本身需要处理长文本。
方法
- 使用
GPT-4作为教师压缩器,利用优化后的指南生成高质量压缩数据。 - 使用
LoRA微调小模型(如Qwen3-14B,Phi-4,Qwen3-8B)作为专用压缩器。 - 效果:
小模型压缩器能达到教师模型95%的效果,且推理速度快、成本低。
实验设置
✍️实验设置
基础模型
- Agent:
GPT-4.1(主要),GPT-4.1-mini,Qwen3-14B-Instruct - Compressor:
GPT-4.1(教师),Qwen3,Phi-4(学生) - Optimizer:
OpenAI o3(用于优化指南)
评测任务
- AppWorld: 复杂日常任务,涉及9个App,平均42.5步。
- OfficeBench: 办公自动化,多文件处理。
- 8-objective QA: 多目标长程问答。
基线方法
No Compression(全量上下文)FIFO(仅保留最近k轮)Retrieval(基于Embedding检索相关历史)LLMLingua(基于困惑度的Token剪枝)Naive Prompting(通用摘要Prompt)
评价指标
Task Accuracy(成功率)Peak Tokens(峰值Token数)Dependency(累积Token依赖,衡量总计算量)
关键结果
🍑关键结果
关键结果(ACON: GPT-4.1+GPT5等 + 小模型蒸馏)
🍑关键结果
模型效果(AppWorld, OfficeBench, QA)
- 显存占用大幅降低:在AppWorld、OfficeBench和QA任务上,
峰值Token使用量减少了26% - 54%。 - 大模型保持性能:
GPT-4.1在大幅压缩上下文的同时,准确率(Accuracy)与不压缩的基线持平。 - 小模型逆势提升:
- 对于
Qwen3-14B和GPT-4.1-mini,压缩后的性能显著优于全量上下文。 - 在AppWorld上,
Qwen3-14B准确率从26.8%提升至33.9%,GPT-4.1-mini提升了30%。
- 对于
重要结论
- 压缩是小模型的均衡器:长上下文中的噪音会干扰小模型,
ACON通过移除无关信息,实际上起到了去噪作用,使小模型能处理更长周期的任务。 - 蒸馏损耗极低:将GPT-4优化的压缩指南蒸馏给小模型(如Phi-4, Qwen3-8B/14B),能保留
95%以上的压缩性能。 - 观测压缩(Observation Compression)不可忽视:不仅历史记录需要压缩,环境返回的冗长观测数据(如API返回的大Json)压缩后收益巨大。
关键贡献
ACON框架:提出基于自然语言梯度的优化方法(分析失败案例 -> 更新压缩Prompt),无需训练Agent即可适配各种环境。两阶段优化策略:UT(最大化效用) +CO(最大化压缩率),在保证任务成功率的前提下极致压缩。
未来方向
⛳ 未来方向
KV Cache 压缩
- 当前方法是Token层面的压缩,导致Transformers的KV Cache失效(每次都要重新计算压缩后的Prompt)。
- 未来方向:结合
KV Cache Eviction或System 2 记忆模块,实现更底层的加速。
成本权衡
- 历史压缩虽然减少了Agent的输入,但增加了压缩器的计算开销(Total Cost可能不降反升)。
观测压缩(Observation Compression)性价比最高,直接减少源头数据量。- 需要更高效的
端侧小模型来专门执行压缩任务。
模型泛化
- 目前主要验证了GPT系列和Qwen系列,未来需在DeepSeek-R1、Claude等模型上验证该框架的通用性。
(2506) Leveraging In-Context Learning for Language Model Agents
🌺 论文摘要
参考链接
核心方法
- 迭代自动轨迹标注
- 用
现有标注作为示例来辅助解决未标注任务,生成ReAct轨迹或Plan-and-Execute计划。
- 用
- 样例选择策略
任务级轨迹:使用Set-BSR选择一组涵盖推理模式的完整轨迹。片段级演示:基于当前推理步骤检索相关小片段,解决上下文限制问题。
模型效果(GPT-4o, AppWorld)
Test-Normal TGC指标达65.9。- 用
Set-BSR选择2条轨迹做示例,比零样本提升30.7pt、比固定样本提升15pt。 - 结合
轨迹样例和片段演示的Prompted GPT-4o,效果媲美经SFT或RL的模型。
重要结论
轨迹演示提高了Agent的可靠性(多次运行一致性)和鲁棒性(新场景)。片段演示能以极低推理成本带来性能提升,是完整轨迹的有效补充。
关键贡献
Agent任务的ICL框架,自动标注+动态示例选择(任务示例+推理snippet),提升效果。- 解决了长轨迹上下文受限和成本高昂的问题。
问题背景
❓问题背景
ICL 在 Agent 任务中存在挑战
- 虽然
上下文学习在预测和生成任务中有效,但在需顺序决策的Agent任务中应用困难。 - 难点:如何大规模
标注长轨迹、如何选择示例、上下文窗口限制,如何放置这些示例。
现有方法的局限
固定Prompt(无法利用训练数据),微调/RL(成本高昂且难更新知识)。- 即使有训练数据,通常也
缺乏可用作演示的详细解决方案轨迹。
📕核心方法
自动轨迹标注
流程
- 利用
LLM作为Solver,结合重试机制和样例选择,自动为训练任务生成解决方案轨迹。 - 迭代过程:
新标注任务会被加入演示池,辅助标注剩余未标注任务,提高效率和成功率。
适用性
- 该算法适用于
不同类型的Solver。- 如生成
ReAct轨迹或Plan-and-Execute (PnE)的子任务计划。
- 如生成

样例选择与放置策略
1. 完整任务轨迹 (Task Trajectories)
- 内容:相似任务的
完整执行过程(Thought,Action,Observation)。 - 位置:置于
Prompt的前部(General Context)。 - 选择方法:
- Ranking-based:使用
Cosine Similarity或BERTScore-Recall选择Top-K。 - Set Selection (Set-BSR):选择
一组能覆盖多种推理模式的轨迹,效果优于独立选择。
- Ranking-based:使用
2. 片段演示 (Snippets)
- 动机:
完整轨迹成本高且存在近因效应(Recency Bias,模型更关注末尾信息)。 - 内容:与
当前步骤推理(Thought)相关的小片段(Thought-Action-Observation)。 - 位置:动态追加在
当前执行轨迹之后(Prompt末尾)。 - 优势:极低的Token开销,针对性强,缓解近因偏差。
3. 子任务轨迹 (Subtask Trajectories)
- 配合
Plan-and-Execute求解器使用,为拆解后的子任务提供对应的轨迹演示。

实验设置
✍️实验设置
基础模型
- GPT-4o:用于标注和主要的ICL实验。
- GPT-4o-mini:用于验证大模型标注是否能迁移提升小模型。
测试基准 AppWorld
- 数据集:Test-Normal (168个任务,分布内) 和 Test-Challenge (417个任务,含未见App)。
评估指标
- TGC (Task Goal Completion):任务完成率。
- SGC (Scenario Goal Completion):场景完成率(衡量鲁棒性)。
- RTGC (Reliability):多次运行成功的比例(衡量可靠性)。
- Efficiency:Token消耗量和步数。
关键结果(ACON: GPT-4.1 + 小模型蒸馏)
🍑关键结果
模型效果(AppWorld, OfficeBench, QA)
- 显存占用大幅降低:在AppWorld、OfficeBench和QA任务上,
峰值Token使用量减少了26% - 54%。 - 大模型保持性能:
GPT-4.1在大幅压缩上下文的同时,准确率(Accuracy)与不压缩的基线持平。 - 小模型逆势提升:
- 对于
Qwen3-14B和GPT-4.1-mini,压缩后的性能显著优于全量上下文。 - 在AppWorld上,
Qwen3-14B准确率从26.8%提升至33.9%,GPT-4.1-mini提升了30%。
- 对于
重要结论
- 压缩是小模型的均衡器:长上下文中的噪音会干扰小模型,
ACON通过移除无关信息,实际上起到了去噪作用,使小模型能处理更长周期的任务。 - 蒸馏损耗极低:将GPT-4优化的压缩指南蒸馏给小模型(如Phi-4, Qwen3-8B/14B),能保留
95%以上的压缩性能。 - 观测压缩(Observation Compression)不可忽视:不仅历史记录需要压缩,环境返回的冗长观测数据(如API返回的大Json)压缩后收益巨大。
关键贡献
ACON框架:提出基于自然语言梯度的优化方法(分析失败案例 -> 更新压缩Prompt),无需训练Agent即可适配各种环境。两阶段优化策略:UT(最大化效用) +CO(最大化压缩率),在保证任务成功率的前提下极致压缩。
未来方向
⛳ 未来方向
成本与性能的权衡
- 随着上下文增加,虽可以放更多轨迹,但
成本也会增高。 - 未来的方向可能是
更智能地混合使用长轨迹和短Snippet。
跨模型迁移
- 表面
大模型(GPT-4o)生成的标注可以有效提升较小模型(GPT-4o-mini)的性能。 - 这为通过
大模型蒸馏提升小模型Agent能力指明了方向。