Agent 评估 Benchmarks

本文概览

Agent Evaluation 相关内容

一图概览(来自论文)

智能体能力评估

Plan & Multi-step Reasoning

Plan and Multi-step Reasoning / Multi-step Planning

这是LLM-Agent的基本能力，要求他们能把复杂任务分解成更小更容易管理的子任务，并执行一系列action来完成任务。

以下是一些基准，这些基准都突出了Agent Plan所需要的关键能力：

任务分解能力(task decomposition)：分解复杂问题
状态跟踪和信念维护能力(state tracking and belief maintenance)：用于准确的多步推理
自我修正能力(self-correction)：用于检测错误和还原回溯
因果理解(casual understanding)：预测action结果
元规划(meta-planing)：改进规划策略

类型	名称	备注
数学推理	(2021)GMS8k、(2021)MATH、(2017)QAUA-RAT
多跳问答	(2017)`HotpotQA`、(2021)StrategyQA、(2018)MultiRC
科学推理	(2018)ARC
逻辑推理	(2024)FOLIO、(2022)P-FOLIO
常识推理	(2023)MUSR
挑战型推理	(2022)BBH
综合型推理	(2023)PlanBench	评估不同领域LLM的规划能力，表明短期规划ok，长期规划不ok
日常场景推理	(2023)AutoPlanBench	评估日常场景中的规划能力
工作流	(2024)FlowBench	评估工作流程规划能力，重点关注知识密集型任务
核心推理	(2024)ACPBench	评估LLM核心推理技能
现实世界	(2024)Natural Plan Benchmark	评估现实世界的规划任务
工具规划推理	(2023)ToolEmu

Function Calling & Tool Use

函数调用

调用外部工具，是构建实时且准确回复Agent的重要能力。函数调用设计多个子任务协作，包括以下几个流程

意图识别：根据query识别何时需要某个函数，确定使用哪个工具
参数提取：从对话中提取函数参数
函数调用：调用外部函数获取结果
LLM回复：把结果整合到输入中，给到LLM做回复

整体有如下Bench：

早期：侧重简单、提供明确参数的但不交互
- (2023)ToolAlpaca、(2025)APIBench、(2023)ToolBench
- (2024)BFCL v1(实时性)、v2(组织工具)、v3(多轮、多步)，(Berkeley Function Calling Leaderboard )
演变：拓展评估领域
- (2024) ToolSandbox：结合状态、隐式依赖关系等。
- (2024) Seal-Tools：采用self-instruct来生成嵌套的工具调用。
- (2023) API-Bank：对话、真实API评估。
- (2024) API-Blend：真实场景。
- (2023) RestBench、(2024) APIGen、(2024) StableToolBench。
多步骤交互：
- (2025) ComplexFUncBench：需要隐式参数推断、用户约束、长上下文处理的场景。

Self-Reflection 反思

self-refelection

agent能够自我反思、通过交互式反馈来提升推理能力，从而减少错误。

早期：间接评估，将已有的推理/规划任务重新用于多轮反馈，查看模型能否根据外部反馈纠正自身错误
- (2023) AGIEval、(2022)MedMCQA、(2021) ALFWorld
中期：交互式自我反思基准
- (2023) LLF-Bench：扩展各种决策任务
- (2024) LLM-Evolve：
- (2024) LiveCodeBench：交互式设置
认知科学角度：
- (2024) Reflection-Bench：评估LLM的认知反思能力。将其分解为：
  - 新信息感知：new information perception
  - 记忆使用：memory usage
  - 信念更新：belief updating following surprise
  - 决策调整：decesion-making adjustments
  - 反事实推理：counterfactual reasoning
  - Meta-reflection：

Memory

记忆力机制可以在交互机制中保持一定的上下文。

短期记忆：助于实时响应
长期记忆：助于更深入的理解和长期应用知识

长上下文评估：通过memory来增强长上下文或检索相关的推理。
- 工作：(2024)ReadAgent、(2024)MemGPT、(2025)A-Mem
- Bench：(2021)Quality、(2018) NarrativeQA、(2021) QMSum、(2024) LoCoMo、(2024) NaturalQuestions-Open
情景记忆评估
- (2025) Episode Memories：评估LLM如何生成和管理memories
外部记忆结合评估
- (2024) StreamBench：评估利用外部memory(反馈)来持续提高效果，在HotpotQA/ToolBench/Spider等多数据集上测。
实时决策和学习评估：优化action
- (2024)LTMBench：通过扩展的多任务交互、频繁上下文切换，来评估对话agent的长期记忆和信息整合能力。

特定智能体评估

Web Agents

通过网络交互来完成任务的AI 系统，例如订机票、购物等。

早期：静态。
- (2022) WebShop、(2023) Mind2Web、(2024) WebVoyoger
近期：动态、更真实的场景
- 适应网页动态变化：(2024) WebLInx
- 解释包含视觉信息：(2023) WebArea、(2024)Visual-WebArea
- 办公室复杂任务：(2024) WorkArea、(2025) WorkArea++
- 多模态/多站点：(2024) MMInA、(2024) AssistantBench、(2024) WebCanvas
- 动静态结合：(2024) ST-WebAgentBench

Software Engineering Agents

最主要
- SWEBench系列：(2023) SWEBench、(2024) SWEBench-Lite、(2024) SWEBench Multimodal
- AgentBench：评估SWE Agent的交互能力
- (2025) SWELancer：代表最新趋势，把性能和货币价值结合起来，凸显诸多挑战。

Scientfic Agents

早期：强调科学知识回忆和推理
- (2017) ACR Clark、(2022) Science QA、(2022) Science World等等。
近期：强调加速科学研究，单一任务为主
- 科学构思：产生新颖、专家级的想法。
- 实验设计：
- 实验代码生成： (2024) SciCode、(2025) ScienceAgentBench、(2024) CORE-Bench等。
- 同行评审生成：
近期/未来：由单一向统一集成转变
- (2025) AAAR-1.0：同时评估方程推理、实验设计、论文缺陷识别和评审4项任务。
- (2025) MLGym：健身房环境，13个挑战
- (2024)DiscoverWorld：模拟120个不同任务完整科学发现周期
- (2024) LabBench：生物学研究领域评估

对话 Agents

提示

Conversational agents 处理用户请求，完成多轮对话，涉及调用工具等。

主要有：

(2021) Action-Based Conversations Datasets(ABCD)：10k对话，55种意图
(2024) ALMITA Bench：客服领域，14个意图，192个对话，1420个测试
(2024) τ -Bench：航空和零售领域
(2025) IntellAgent：一个自动评估对话agent的框架，以数据库/公司政策为输入，基于事件和用户测试

Data Agents

(2502)DABStep

DABStep

(2025)DABStep，Data Agent Benchmark for Multi-Step Reasoning
Baseline、DABStep Leaderboard、QuickStart

DABStep是一个多步推理的数据Benchmark，包括450个数据分析任务。它要求模型

深入数据细节、保持严谨无幻觉
对结构化和非结构化数据进行推理。
连接到真实实际应用场景中。是分析师日常面料的真实挑战0

数据示例

数据由多种金融文件组成。

问题示例：

包括：问题、难度、Guidelines(说明如何去解析答案结构来评估正确性)

对于难度1，很多acc达到90%，但对于难度2，o3 mini、DSR1也只有10+的准确率。

通用智能体评估

Generalist Agent

由单一能力向综合转变，整合LLM、网络导航、信息检索、代码执行等能力，处理复杂任务。

主要有：

一般能力评估：多步推理、交互式解决问题、工具使用等。
- (2023) GAIA：466个真实问题，测试推理、多模理解、网页导航、工具使用等。
- (2025) Galileo’s Agent Leaderboard：强调实际应用中函数调用的能力。
- (2023) AgentBench：交互式环境，操作系统、SQL、数字游戏、家务任务等。
超越一般评估：强调在完整计算机系统中的表现
- (2024) OSWorld、(2024) OminiAct、(2024) AppWorld。需编写调试代码，保证系统稳定运行
数字工作环境评估：像人类工作一样评估
- (2024) TheAgentCompany：浏览内部网站、编写代码、与同事沟通。
- (2025) CRMArena：客户关系管理
标准化评估平台
- (2025) Holistic Agent Leaderboard：一个标准化汇评估平台，汇总多个bench

Agent评估框架

时期	特点
早期	单轮交互、评估任务完成度
最近	多步推理、轨迹分析、特定agent评估(如tool use)等。

主要框架

主要包括：

名称	内容
(2023) LangSmith	Langchain的
(2023) LangFuse
(2025) LangChain AgentsEvals	Langchain的
(2025) Google Vertex AI Evaluation
(2025) Arize AI's Evaluation Framework
(2025) Galileo Agentic Evaluation
(2023) Databricsks Mosaic AI Agent Evaluation	主要forRAG任务
(2025) Botpress Multi-Agent Evaluation System	Mulit-Agent
(2024) AutoGen	Multi-Agent

评估维度

名称	内容
Final Response 评估	事先定义好`评估标准`，再使用`LLM-based judeges`来评估。
Stepwise 评估	`细粒度评估每个action`，分析错误原因。比如`工具选择`、执行等。如Galieo Agentic Evaluation提供 `action advancement metric`，来评估action是否有贡献等。但问题是，缺乏泛化通用judge，很多都是task-specific的。
Traj-Based 评估	评估决策过程相对预期最佳路径所采取的步骤顺序。

Agent 评估 Benchmarks

一图概览(来自论文) ​

智能体能力评估 ​

Plan & Multi-step Reasoning ​

Function Calling & Tool Use ​

Self-Reflection 反思 ​

Memory ​

特定智能体评估 ​

Web Agents ​

Software Engineering Agents ​

Scientfic Agents ​

对话 Agents ​

Data Agents ​

通用智能体评估 ​

Agent评估框架 ​

主要框架 ​

评估维度 ​

Benchmarks ​