AppWorld 上下文相关

(2512) PAACE: A Plan-Aware Automated Agent Context Engineering Framework

🌺 论文摘要

PAACE 论文摘要

参考链接

paper

核心方法 (Plan-Aware Automated Context Engineering)

PAACE框架：一种计划感知的上下文工程框架。
PAACE-Syn：合成工作流生成器，基于Next-k任务相关性，生成带压缩监督信号的轨迹。
PAACE-FT：将Teacher (GPT-120B) 的压缩能力蒸馏给Student (4B)，实现低成本部署。
关键机制：Next-k 任务预测 + 计划结构分析 + 指令联合优化 + 功能保留性压缩。

模型效果 (PAACE-FT 蒸馏模型)

AppWorld：平均准确率(Acc)达 59.00，优于无压缩基线(56.00)及SOTA压缩方法ACON(56.50)。
OfficeBench：准确率达 78.10，且Context依赖量(Dependency)从4.43M降至1.64M。
8-Objective QA：EM达 0.402，F1达 0.512，优于所有基线。

重要结论

Next-k 任务相关性对于长程Agent至关重要，k=2或3通常足够。
压缩即正则化：移除无关信息不仅省钱，还能减少注意力分散，提升准确率。
蒸馏有效性：Student模型保留了Teacher 97% 的性能，推理成本降低一个数量级。

关键贡献

提出了Plan-Aware (计划感知) 的上下文压缩理念，并发布了合成数据生成框架PAACE-Syn。

问题背景

❓问题背景

现有上下文管理的局限

Context Rot (上下文腐烂)

即使是1M+ token窗口的模型，当上下文中充斥着无关信息、噪音或过时状态时，推理质量也会下降（Attention Dilution）。
现代Agent失败往往是Context Failure而非模型能力不足。

现有方法的不足

Summarization (如BART, FLAN-T5)：往往展平了因果链，丢失多步推理所需的结构。
Query-Aware (如Self-RAG, LLMLingua)：仅针对当前查询优化，忽略了未来计划(Plan)和多步依赖。
Prompt Engineering：侧重初始指令，缺乏对执行过程中动态状态的持续优化。

PAACE 框架概览

📕核心方法

PAACE: Plan-Aware Context Engineering

核心思想

将上下文工程视为一个状态压缩策略学习问题。
Plan-Aware：压缩不仅仅看历史，还要基于Current Plan和Next-k Tasks。
操作算子：不仅是剪枝(Pruning)，还包含重写(Rewriting)、摘要和指令微调(Refinement)。

PAACE-Syn (数据生成)

生成器：利用Teacher模型 (GPT-OSS-120B) 生成大量合成Agent工作流。
压缩监督：
- Teacher根据Next-k步骤的计划，对当前Context进行压缩。
- 质量控制：要求压缩后的Context在执行结果上与全量Context语义等效 (Semantic Equivalence $\geq 0.85$ )。
- 数据量：生成了约120万条工作流，95亿token。

PAACE-FT (模型蒸馏)

目标：训练一个轻量级Student模型 (如Qwen3-4B) 来模仿Teacher的压缩策略。
输入：Next-k 任务指令 + 当前全量 Context。
输出：压缩后的 Context。
优势：部署时无需大模型Teacher，推理快，成本低。

实验设置

✍️实验设置

实验设置

基础模型

Teacher (用于数据生成): GPT-OSS-120B (64k context)
Student (用于实际评测): Qwen3-4B-Instruct (蒸馏后的PAACE-FT)
Agent Backbone: 所有对比实验使用统一的执行Backbone，仅改变Context管理策略。

评测任务/数据

AppWorld: 多App交互，异构观察空间。难点在于跨应用状态追踪。
OfficeBench: 文档中心的工具链操作。
8-Objective QA: 多跳检索QA，涉及工具搜索。

对比基线

No Compression (全量历史)
FIFO (保留最近k轮)
Retrieval (Embedding检索)
LLMLingua (Token级压缩)
ACON (SOTA，基于自然语言反馈的上下文优化)

核心指标

Acc / EM / F1: 任务性能。
Peak: 峰值上下文长度。
Dependency: 累积注意力负载 (Cumulative Attention Load)，反映总计算成本。

关键结果

🍑关键结果

模型效果

AppWorld (Average Acc)

PAACE (59.00) > ACON UTCO (56.50) > No Compression (56.00) > LLMLingua (39.30)。
资源消耗：PAACE的Peak Token为 6.23k (vs No Comp 9.93k)，Dependency降至 3.75M (vs No Comp 5.96M)。
结论：在最复杂的长程任务上，PAACE不仅省流，而且显著提升了准确率。

OfficeBench (Acc)

PAACE (78.10) > No Compression (76.84) > ACON UT (74.74)。
资源消耗：Dependency降至 1.64M (vs No Comp 4.43M)，推理成本降低60%+。

8-Objective QA (EM / F1)

PAACE (0.402 / 0.512) 优于所有基线。
No Compression 在此任务上表现尚可(EM 0.366)，但PAACE通过去除噪音进一步提升了检索准确性。

消融实验 (Next-k 的 k 值)

AppWorld: k=2 (59.0) > k=3 (58.6) > k=1 (56.5)。工具类任务适度前瞻即可。
QA任务: k=3 效果最好，因为证据往往在检索后几步才被消费。

未来方向

⛳ 未来方向

未来方向

跨域泛化

目前PAACE主要针对特定Benchmark生成合成数据训练，未来需探索跨领域的通用压缩策略。

安全性与形式化验证

当前依靠Embedding相似度和LLM裁判来保证压缩质量，未来需要引入符号化检查或形式化验证，确保关键约束在压缩中不丢失。

指令-上下文联合深度优化

目前指令微调是隐式的，未来可将Instruction Refinement作为一个独立的显式目标进行联合优化。

(2512) (通义) Remember Me, Refine Me: A Dynamic Procedural Memory Framework for Experience-Driven Agent Evolution

🌺 论文摘要

ReMe 论文摘要

参考链接

paper, code, dataset

核心方法ReMe (Remember Me, Refine Me) 框架

多维度提取：从轨迹中提取成功模式、失败教训和对比洞察，而非存储原始轨迹。
上下文自适应重用：场景感知检索 + 重排序 + 自适应重写，将历史经验转化为当前任务指引。
基于效用的精炼：选择性添加（仅保留高质量经验）+ 故障感知反思 + 基于效用的删除（修剪高频检索但低效用的条目）。

模型效果 (AppWorld Test-Normal, TGC，ean@4 指标)

ReMe(Dynamic)：Qwen3-8B 24分，Qwen3-14B 34分，Qwen3-32B 42分。
相比无记忆或其他记忆均有提升。

关键贡献

提出了闭环的 ReMe 框架，解决了现有记忆系统“被动积累”和“噪声退化”的问题。
发布了 reme.library 数据集，包含细粒度的程序性记忆（成功模式与失败教训）。

问题背景(现有记忆框架存在局限)

❓问题背景

现有记忆框架的局限性

被动积累范式

现有Agent记忆框架大多将记忆视为静态的追加式档案。
存储形式：原始轨迹或粗粒度摘要。
缺陷：
- 噪声干扰：粗粒度经验包含无关信息，阻碍核心逻辑提取。
- 缺乏适配：不做调整直接套用检索到的经验，导致在稍有变化场景下失效。
- 退化问题：缺乏更新/删除机制，积累大量低效或有毒条目。

理想记忆系统的标准

高质量提取：提取通用、可重用的知识，而非特定问题的观察。
任务落地利用：根据当前任务需求动态调整检索到的记忆。这也太难了吧。
渐进式优化：自主强化有效条目，修剪过时条目。

📕核心方法

ReMe 框架 (Acquisition-Reuse-Refinement)

1. 经验获取 (Experience Acquisition)

多维度记录：不仅记录成功经验，还做成功模式识别、失败原因分析和高低分轨迹对比分析。
结构化存储：经验表示为 $E = ⟨ ω, e, κ, c, τ ⟩$ ，适用场景+内容+关键词+置信度+工具。
质量控制：使用 LLM-as-a-Judge 进行验证，并进行去重。

2. 经验重用 (Experience Reuse)

场景感知检索：基于使用场景 ( $ω$ ) 的 Embedding 做检索，而非仅匹配Task Query。
自适应重写： Rerank+ Rewrite。
- 将检索的多条经验重组为针对当前任务的连贯指导，而非简单拼接。

3. 经验精炼 (Experience Refinement)

选择性添加：成功轨迹的经验 + 故障感知反思修正后的成功经验。
基于效用做删除：跟踪经验的检索次数 ( $f$ ) 和效用值 ( $u$ , 助攻成功的次数)。
删除公式：当检索次数 $f \geq α$ 且效用率 $u / f < β$ 时，移除该经验。

实验设置

✍️实验设置

实验设置

基础模型

Qwen3 系列 (8B, 14B, 32B Instruct)。

评测任务/数据

BFCL-V3：金融类多轮工具调用任务。
- 训练：50个随机任务；测试：150个任务。
AppWorld (Test-Normal)：模拟日常数字交互的复杂Agent任务。
- 训练：90个任务；测试：168个任务 (Test-Normal set)。

指标说明

Avg@4：4次独立运行的平均任务成功率 (Task Goal Completion)。
Pass@4：4次运行中至少成功1次的概率（反映探索上限）。

对比基线

No Memory：无记忆基线。
A-Mem (2025)：构建记忆中心知识图谱。
LangMem (2025)：LangChain 的长短期记忆模块。

关键结果

🍑关键结果

关键结果

模型效果 (BFCL-V3)

Qwen3-8B：
- No Memory: Avg@4 40.33% / Pass@4 59.55%。
- ReMe (Dynamic): Avg@4 45.17% / Pass@4 68.00%。
- 超越了： A-Mem (41.22%) 和 LangMem (44.11%)。

模型效果 (AppWorld Test-Normal, TGC，ean@4 指标)

ReMe(Dynamic)：Qwen3-8B 24分，Qwen3-14B 34分，Qwen3-32B 42分。
相比无记忆或其他记忆均有提升。

消融实验

Keypoint-level 提取比 Trajectory-level 带来约 4-6% 的性能提升。
Selective Addition（选择性添加）比 Full Addition 效果好（避免低质量失败经验污染）。
Utility-based Deletion（删除机制）对维持长期性能至关重要。

未来方向

⛳ 未来方向

未来方向

更强的 Summarizer：使用更强模型 Summarizer(32B) 可进一步提升 8B Executor表现。
检索数量的平衡：检索经验数量 $K$ 存在饱和点（如 $K = 5$ ），过多会导致噪声干扰。
终身学习效率：验证了 Self-evolving memory 是实现 Agent 终身学习的高效途径，未来可探索在更长周期、更开放域任务中的表现。

(2510) Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models

🌺 论文摘要

ACE 论文摘要

参考链接

paper

核心方法

ACE (Agentic Context Engineering)：一种将Context视为动态进化Playbook的框架。
Agentic 架构：
- Generator：生成轨迹。
- Reflector：基于轨迹反思，提取Insight。
- Curator：将Insight转化为结构化的Delta（增量）更新，维护Context。
核心机制：
- 增量更新：防止全量重写导致的Context Collapse（上下文坍塌）。
- 无监督进化：支持在无Ground Truth标签下，仅凭执行反馈进行自我改进。

模型效果 (DeepSeek-V3.1)

Agent任务 (AppWorld)：
- 综合表现：Offline ACE 平均TGC达 59.4%，Online ACE 达 59.5%，远超Base (42.4%)。
- SOTA对比：在更难的 Test-Challenge 分割上，ACE击败了榜单第一的 IBM CUGA (GPT-4)。
金融领域 (FiNER/Formula)：平均准确率提升 8.6% (Offline)。
效率：适配延迟降低约 87%，Token成本显著低于全量重写方法。

重要结论

结构化的Playbook比通用的Prompt指令更有效，能保留领域细节。
Context Collapse是长文本优化的主要瓶颈，增量更新是有效解法。
小模型（DeepSeek）配合高质量进化的Context，可以匹敌甚至超越大模型（GPT-4）Agent。

问题背景

❓问题背景

现有方法的局限性

Context Adaptation 的挑战

现有方法（如MIPRO, OPRO, Reflexion）通常通过重写整个Prompt来优化。
Brevity Bias (简短偏差)：优化过程倾向于生成简短、笼统的建议，丢弃关键的领域细节。
Context Collapse (上下文坍塌)：
- 这是一个严重的退化现象。例如在AppWorld实验中，Context长度从18k token被压缩到122 token，导致准确率从 66.7% 暴跌至 57.1%，甚至低于不优化的基线。

📕核心方法

ACE 框架架构

Agentic Context Engineering (ACE)

Playbook (剧本) 结构

Context被组织成带有ID的结构化条目 (Bullets)，包含策略、代码片段、易错点等。

三个角色分工

Generator (执行者)：利用Playbook生成推理和代码，产出执行轨迹。
Reflector (反思者)：分析轨迹（成功或失败），生成具体的Insights。支持利用Execution Feedback（如代码报错）在无标签情况下工作。
Curator (策展人)：将Insights转化为具体的编辑操作（ADD, UPDATE, DELETE），以增量Delta的方式更新Playbook，而非重写全文。

关键机制

增量更新与管理

Delta Updates：仅对Playbook进行局部修改。这不仅避免了信息丢失，还支持并行处理（Batch size > 1），大幅降低Token成本。
Grow-and-Refine：
- Grow：持续积累新策略。
- Refine：当Context过长时，利用Embedding相似度合并冗余条目，保持Playbook精炼。

实验设置

✍️实验设置

实验设置

基础模型

DeepSeek-V3.1 (Non-thinking mode)：用于所有组件（Generator/Reflector/Curator），确保公平对比。

基线方法

ReAct (Base LLM)
ICL (In-Context Learning)
MIPROv2 / GEPA (Prompt优化算法)
Dynamic Cheatsheet (DC) (动态记忆机制)

评测任务

AppWorld: 复杂的Agent基准测试，涉及API调用、代码生成。
- 指标：TGC (Task Goal Completion, 任务完成率), SGC (Step Goal Completion, 步骤完成率)。
- 分割：Test-Normal (普通难度), Test-Challenge (高难度)。
FiNER / Formula: 金融领域的实体提取与数值推理。

关键结果

🍑关键结果

AppWorld (Agent) 详细结果

1. 整体性能大幅提升

ReAct Base: 平均 TGC 42.4%
ReAct + ACE (Offline, 有标签): 平均 TGC 59.4% (+17.0%)
ReAct + ACE (Online, 无标签): 平均 TGC 59.5% (+17.1%)

2. Test-Normal vs Test-Challenge (难度分层) ACE 在高难度任务上提升尤为明显：

Test-Normal (普通):
- Base: TGC 63.7 / SGC 42.9
- ACE (Offline): TGC 76.2 (+12.5) / SGC 64.3 (+21.4)
Test-Challenge (困难):
- Base: TGC 41.5 / SGC 21.6
- ACE (Offline): TGC 57.3 (+15.8) / SGC 39.6 (+18.0)
- ACE (Online): TGC 66.0 (+24.5) / SGC 48.9 (+27.3)
- 注：Online模式下，ACE通过实时学习在困难任务上表现极佳。

3. 与 SOTA (IBM CUGA) 对比

IBM CUGA 是榜单第一的生产级Agent，基于 GPT-4。
ACE (DeepSeek) 尽管使用开源小模型，但在 Test-Challenge 上击败了 CUGA：
- TGC: ACE (Online) 66.0 vs CUGA 57.6 (ACE +8.4%)
- SGC: ACE (Online) 48.9 vs CUGA 48.2 (ACE +0.7%)

金融领域结果 & 效率

金融任务 (FiNER & Formula)

Formula: Base 67.5% -> ACE 85.5% (+18.0%)
FiNER: Base 70.7% -> ACE 78.3% (+7.6%)

无监督学习能力

在没有Ground Truth标签的情况下（仅靠代码执行反馈）：
- AppWorld: ACE 仍能达到平均 TGC 57.2% (Offline) / 59.5% (Online)，相比有标签版本几乎无损，甚至在在线模式下更好。

效率

延迟: 相比 GEPA 降低 86.9% (Offline Adaptation)。
成本: 相比 Dynamic Cheatsheet，Online Adaptation 的成本降低了约 6倍。

未来方向

⛳ 未来方向

总结与展望

核心优势

ACE 证明了通过结构化、增量式的 Context 维护，可以让小模型（DeepSeek）在复杂Agent任务上发挥出超越大模型（GPT-4）的性能。
解决了长Context优化中的"坍塌"问题，为长时间运行的Agent提供了一种可靠的记忆进化机制。

局限与展望

目前主要依赖文本形式的Playbook，未来可扩展至多模态（Visual Context）。
即使是简单的执行反馈（成功/失败）也能驱动强大的自我进化，这为低资源环境下的Agent自学习提供了新思路。

(2510) ACON OPTIMIZING CONTEXT COMPRESSION FOR LONG-HORIZON LLM AGENTS

🌺 论文摘要

ACON 论文摘要

参考链接

paper, code

核心方法

ACON框架：针对长程Agent的历史(History)和观测(Observation)进行双重压缩。
自然语言梯度优化：
- 基于失败驱动(Failure-driven)机制。
- 对比全量上下文成功但在压缩上下文失败的轨迹。
- LLM分析失败原因，迭代更新压缩指南(Guideline)。
两阶段优化：UT(最大化效用) + CO(最大化压缩率)。
蒸馏(Distillation)：将GPT-4优化的压缩器蒸馏到小模型(如Qwen-14B)以降低成本。

模型效果

在AppWorld, OfficeBench, Multi-objective QA上验证。
峰值Token减少：降低26-54%的显存占用。
小模型Agent提升：消除噪音上下文后，Qwen-14B等小模型Agent性能提升高达46%。
AppWorld Test-Normal GPT5-Chat TGC 66分。
蒸馏效果：蒸馏后的小模型压缩器保留了教师模型95%以上的性能。

重要结论

压缩不只是为了省钱，更能提升小模型Agent的效果（减少Distraction）。
通用Prompt不够用，针对环境特性的动态指南优化至关重要。
观测压缩(Observation Compression)与历史压缩同样重要且有效。

关键贡献

提出ACON：一种通用的、基于梯度的无参数(Gradient-free)上下文优化框架。

问题背景(长任务的上下文爆炸)

❓问题背景

问题背景

上下文无限增长

Agent在真实环境(如操作系统/Web）交互时，累积大量Action和Observation。
Token推理成本 随长度线性或二次增长。
Lost-in-the-Middle：上下文包含大量噪音，导致LLM注意力分散，决策质量下降。

现有压缩方法的局限

检索(RAG)：适用于单步QA，但容易丢失长程任务中的状态变化和多步依赖。
FIFO/截断：直接丢弃早期信息，导致关键ID或环境状态丢失。
通用摘要：缺乏针对特定任务的敏感度（不知保留哪个API的返回值）。
现有Agent压缩工作(如LLMLingua) 通常只关注Prompt压缩，未解决动态交互历史的问题。

📕核心方法

Agent上下文压缩流程

ACON (Agent Context Optimization)

核心思想

引入一个独立的压缩器(Compressor)模块。
不用固定Prompt，而是通过优化算法学习出针对特定环境的压缩指南(Guideline)。
支持历史压缩（将过去交互总结为摘要）和观测压缩（精简当前环境返回的冗长日志）。

无梯度优化流程 (Guideline Optimization)

无梯度：完全在自然语言空间进行。
数据构建：收集轨迹对， $τ_{full}$ (使用全量上下文成功) 和 $τ_{compress}$ (使用当前压缩策略失败)。
优化步骤：
- 分析：让LLM对比成功和失败的轨迹，找出因压缩而丢失的关键信息（如文件名/错误提示）
- 更新：基于分析结果，修改压缩器的System Prompt，要求保留特定类型的信息。
两阶段策略：
- UT (Utility Maximization)：优先保证压缩后的上下文能让Agent成功完成任务。
- CO (Compression Optimization)：在保证成功率的前提下，进一步精简Prompt长度。

压缩器蒸馏

压缩器蒸馏 (Distillation)

动机

引入额外的LLM做压缩会增加延迟和成本。
历史压缩虽然减少了Agent的输入Token，但压缩过程本身需要处理长文本。

方法

使用GPT-4作为教师压缩器，利用优化后的指南生成高质量压缩数据。
使用LoRA微调小模型（如Qwen3-14B, Phi-4, Qwen3-8B）作为专用压缩器。
效果：小模型压缩器能达到教师模型95%的效果，且推理速度快、成本低。

实验设置

✍️实验设置

实验设置

基础模型

Agent: GPT-4.1 (主要), GPT-4.1-mini, Qwen3-14B-Instruct
Compressor: GPT-4.1 (教师), Qwen3, Phi-4 (学生)
Optimizer: OpenAI o3 (用于优化指南)

评测任务

AppWorld: 复杂日常任务，涉及9个App，平均42.5步。
OfficeBench: 办公自动化，多文件处理。
8-objective QA: 多目标长程问答。

基线方法

No Compression (全量上下文)
FIFO (仅保留最近k轮)
Retrieval (基于Embedding检索相关历史)
LLMLingua (基于困惑度的Token剪枝)
Naive Prompting (通用摘要Prompt)

评价指标

Task Accuracy (成功率)
Peak Tokens (峰值Token数)
Dependency (累积Token依赖，衡量总计算量)

关键结果

🍑关键结果

关键结果(ACON: GPT-4.1+GPT5等 + 小模型蒸馏)

🍑关键结果

关键结果

模型效果(AppWorld, OfficeBench, QA)

显存占用大幅降低：在AppWorld、OfficeBench和QA任务上，峰值Token使用量减少了26% - 54%。
大模型保持性能：GPT-4.1在大幅压缩上下文的同时，准确率(Accuracy)与不压缩的基线持平。
小模型逆势提升：
- 对于Qwen3-14B和GPT-4.1-mini，压缩后的性能显著优于全量上下文。
- 在AppWorld上，Qwen3-14B准确率从26.8%提升至33.9%，GPT-4.1-mini提升了30%。

重要结论

压缩是小模型的均衡器：长上下文中的噪音会干扰小模型，ACON通过移除无关信息，实际上起到了去噪作用，使小模型能处理更长周期的任务。
蒸馏损耗极低：将GPT-4优化的压缩指南蒸馏给小模型（如Phi-4, Qwen3-8B/14B），能保留95%以上的压缩性能。
观测压缩(Observation Compression)不可忽视：不仅历史记录需要压缩，环境返回的冗长观测数据（如API返回的大Json）压缩后收益巨大。

关键贡献

ACON框架：提出基于自然语言梯度的优化方法（分析失败案例 -> 更新压缩Prompt），无需训练Agent即可适配各种环境。
两阶段优化策略：UT(最大化效用) + CO(最大化压缩率)，在保证任务成功率的前提下极致压缩。

未来方向

⛳ 未来方向

未来方向

KV Cache 压缩

当前方法是Token层面的压缩，导致Transformers的KV Cache失效（每次都要重新计算压缩后的Prompt）。
未来方向：结合KV Cache Eviction或System 2 记忆模块，实现更底层的加速。

成本权衡

历史压缩虽然减少了Agent的输入，但增加了压缩器的计算开销（Total Cost可能不降反升）。
观测压缩(Observation Compression)性价比最高，直接减少源头数据量。
需要更高效的端侧小模型来专门执行压缩任务。

模型泛化

目前主要验证了GPT系列和Qwen系列，未来需在DeepSeek-R1、Claude等模型上验证该框架的通用性。

(2506) Leveraging In-Context Learning for Language Model Agents

🌺 论文摘要

论文摘要

参考链接

Paper

核心方法

迭代自动轨迹标注
- 用现有标注作为示例来辅助解决未标注任务，生成ReAct轨迹或Plan-and-Execute计划。
样例选择策略
- 任务级轨迹：使用Set-BSR选择一组涵盖推理模式的完整轨迹。
- 片段级演示：基于当前推理步骤 检索相关小片段，解决上下文限制问题。

模型效果(GPT-4o, AppWorld)

Test-Normal TGC 指标达65.9。
用Set-BSR选择2条轨迹做示例，比零样本 提升30.7pt、比固定样本 提升15pt。
结合轨迹样例和片段演示的Prompted GPT-4o，效果媲美经SFT或RL的模型。

重要结论

轨迹演示提高了Agent的可靠性（多次运行一致性）和鲁棒性（新场景）。
片段演示能以极低推理成本带来性能提升，是完整轨迹的有效补充。

关键贡献

Agent任务的ICL框架，自动标注+动态示例选择(任务示例+推理snippet)，提升效果。
解决了长轨迹上下文受限和成本高昂的问题。

问题背景

❓问题背景

问题背景

ICL 在 Agent 任务中存在挑战

虽然上下文学习在预测和生成任务中有效，但在需顺序决策的Agent任务中应用困难。
难点：如何大规模标注长轨迹、如何选择示例、上下文窗口限制，如何放置这些示例。

现有方法的局限

固定Prompt（无法利用训练数据），微调/RL（成本高昂且难更新知识）。
即使有训练数据，通常也缺乏可用作演示的详细解决方案轨迹。

📕核心方法

自动轨迹标注

迭代式标注算法

流程

利用LLM作为Solver，结合重试机制和样例选择，自动为训练任务生成解决方案轨迹。
迭代过程：新标注任务会被加入演示池，辅助标注剩余未标注任务，提高效率和成功率。

适用性

该算法适用于不同类型的Solver。
- 如生成ReAct轨迹 或 Plan-and-Execute (PnE)的子任务计划。

样例选择与放置策略

不同粒度的样例

1. 完整任务轨迹 (Task Trajectories)

内容：相似任务的完整执行过程（Thought, Action, Observation）。
位置：置于Prompt的前部（General Context）。
选择方法：
- Ranking-based：使用Cosine Similarity或BERTScore-Recall选择Top-K。
- Set Selection (Set-BSR)：选择一组能覆盖多种推理模式的轨迹，效果优于独立选择。

2. 片段演示 (Snippets)

动机：完整轨迹成本高且存在近因效应（Recency Bias，模型更关注末尾信息）。
内容：与当前步骤推理（Thought）相关的小片段（Thought-Action-Observation）。
位置：动态追加在当前执行轨迹之后（Prompt末尾）。
优势：极低的Token开销，针对性强，缓解近因偏差。

3. 子任务轨迹 (Subtask Trajectories)

配合Plan-and-Execute求解器使用，为拆解后的子任务提供对应的轨迹演示。

实验设置

✍️实验设置

实验设置

基础模型

GPT-4o：用于标注和主要的ICL实验。
GPT-4o-mini：用于验证大模型标注是否能迁移提升小模型。

测试基准 AppWorld

数据集：Test-Normal (168个任务，分布内) 和 Test-Challenge (417个任务，含未见App)。

评估指标

TGC (Task Goal Completion)：任务完成率。
SGC (Scenario Goal Completion)：场景完成率（衡量鲁棒性）。
RTGC (Reliability)：多次运行成功的比例（衡量可靠性）。
Efficiency：Token消耗量和步数。

关键结果(ACON: GPT-4.1 + 小模型蒸馏)

🍑关键结果

关键结果

模型效果(AppWorld, OfficeBench, QA)

显存占用大幅降低：在AppWorld、OfficeBench和QA任务上，峰值Token使用量减少了26% - 54%。
大模型保持性能：GPT-4.1在大幅压缩上下文的同时，准确率(Accuracy)与不压缩的基线持平。
小模型逆势提升：
- 对于Qwen3-14B和GPT-4.1-mini，压缩后的性能显著优于全量上下文。
- 在AppWorld上，Qwen3-14B准确率从26.8%提升至33.9%，GPT-4.1-mini提升了30%。

重要结论

压缩是小模型的均衡器：长上下文中的噪音会干扰小模型，ACON通过移除无关信息，实际上起到了去噪作用，使小模型能处理更长周期的任务。
蒸馏损耗极低：将GPT-4优化的压缩指南蒸馏给小模型（如Phi-4, Qwen3-8B/14B），能保留95%以上的压缩性能。
观测压缩(Observation Compression)不可忽视：不仅历史记录需要压缩，环境返回的冗长观测数据（如API返回的大Json）压缩后收益巨大。

关键贡献

ACON框架：提出基于自然语言梯度的优化方法（分析失败案例 -> 更新压缩Prompt），无需训练Agent即可适配各种环境。
两阶段优化策略：UT(最大化效用) + CO(最大化压缩率)，在保证任务成功率的前提下极致压缩。

未来方向

⛳ 未来方向

未来方向

成本与性能的权衡

随着上下文增加，虽可以放更多轨迹，但成本也会增高。
未来的方向可能是更智能地混合使用长轨迹和短Snippet。

跨模型迁移

表面大模型(GPT-4o)生成的标注可以有效提升较小模型（GPT-4o-mini）的性能。
这为通过大模型蒸馏 提升小模型Agent能力指明了方向。

AppWorld 上下文相关

(2512) PAACE: A Plan-Aware Automated Agent Context Engineering Framework ​

问题背景 ​

PAACE 框架概览 ​

实验设置 ​

关键结果 ​

未来方向 ​

(2512) (通义) Remember Me, Refine Me: A Dynamic Procedural Memory Framework for Experience-Driven Agent Evolution ​

问题背景(现有记忆框架存在局限) ​

核心方法(ReMe框架，Acquisition-Reuse-Refinement) ​

实验设置 ​

关键结果 ​

未来方向 ​

(2510) Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models ​

问题背景 ​

ACE 框架架构 ​

关键机制 ​

实验设置 ​

关键结果 ​

未来方向 ​

(2510) ACON OPTIMIZING CONTEXT COMPRESSION FOR LONG-HORIZON LLM AGENTS ​

问题背景(长任务的上下文爆炸) ​

Agent上下文压缩流程 ​

压缩器蒸馏 ​

实验设置 ​

关键结果 ​

关键结果(ACON: GPT-4.1+GPT5等 + 小模型蒸馏) ​

未来方向 ​

(2506) Leveraging In-Context Learning for Language Model Agents ​

问题背景 ​

自动轨迹标注 ​

样例选择与放置策略 ​

实验设置 ​

关键结果(ACON: GPT-4.1 + 小模型蒸馏) ​

未来方向 ​

(2512) PAACE: A Plan-Aware Automated Agent Context Engineering Framework

问题背景

PAACE 框架概览

实验设置

关键结果

未来方向

(2512) (通义) Remember Me, Refine Me: A Dynamic Procedural Memory Framework for Experience-Driven Agent Evolution

问题背景(现有记忆框架存在局限)

核心方法(ReMe框架，Acquisition-Reuse-Refinement)

实验设置

关键结果

未来方向

(2510) Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models

问题背景

ACE 框架架构

关键机制

实验设置

关键结果

未来方向

(2510) ACON OPTIMIZING CONTEXT COMPRESSION FOR LONG-HORIZON LLM AGENTS

问题背景(长任务的上下文爆炸)

Agent上下文压缩流程

压缩器蒸馏

实验设置

关键结果

关键结果(ACON: GPT-4.1+GPT5等 + 小模型蒸馏)

未来方向

(2506) Leveraging In-Context Learning for Language Model Agents

问题背景

自动轨迹标注

样例选择与放置策略

实验设置

关键结果(ACON: GPT-4.1 + 小模型蒸馏)

未来方向