DeepResearch 评估

📅 发表于 2025/06/25

🔄 更新于 2025/06/25

👁️ -- 次访问

📝 0 字

⏳ 0 分钟

Paper

(2506) DeepResearch Bench: A Comprehensive Benchmark for Deep Research Agents

摘要

paper

❓问题背景

问题背景

端到端复杂性能力，缺乏标准评估基准

📕核心方法

核心方法

整体上：提出核心评估框架，包括22个领域、100+博士级研究任务，以及2种和人类高度一致的评估方法。

数据构建：50中文、50英文任务，与真实需求相同。从LLM真实聊天中9.6w筛选出4.4w需要多轮搜索的深度研究任务。
评估框架
- RACE 报告质量评估
  - LLM-as-Judge
  - 4个维度：全面性、洞察力、指令遵循、可读性
- FACT 事实基础评估（事实丰富度+引文可信度）
  - 评估事实准确性和信息检索能力，过程包括语句-url对提取、去重、支持验证。
  - 2个关键指标：引用准确率、有效引用数
人类一致性验证
- RACE框架和人类偏好度高度一致
  - 成对协议率：71.33%，总体皮尔逊相关系数：99.54%，过滤后的相关系数：60.24%、59.12%

数据集：

✍️实验设置

实验配置

DeepResearch：Gemini、Perplextiy、Grok、OpenAI
模型+Search：GPT-4o、Gemini、Claude等。

🍑关键结果

关键结果

RACE：Gemini-2.5-Pro DeepResearch 去的最高分，其后是OpenAI的。
FACT：显示引用数量和准确率有个平衡。Gemini DeepResearch 有效引用最多，但准确率较低；Perplexity 准确率高，但引用数量少。

⛳未来方向

未来方向

总访客数： · 总访问量：

PLM's Blog @ 2016 - 2026