Skip to content

DeepResearch 评估

📅 发表于 2025/06/25
🔄 更新于 2025/06/25
👁️ -- 次访问
📝 0 字
0 分钟

Paper

(2506) DeepResearch Bench: A Comprehensive Benchmark for Deep Research Agents

摘要

❓问题背景

问题背景
  • 端到端复杂性能力,缺乏标准评估基准

📕核心方法

核心方法

整体上:提出核心评估框架,包括22个领域、100+博士级研究任务,以及2种和人类高度一致的评估方法。

  • 数据构建:50中文、50英文任务,与真实需求相同。从LLM真实聊天中9.6w筛选出4.4w需要多轮搜索的深度研究任务。
  • 评估框架
    • RACE 报告质量评估
      • LLM-as-Judge
      • 4个维度:全面性、洞察力、指令遵循、可读性
    • FACT 事实基础评估(事实丰富度+引文可信度)
      • 评估事实准确性和信息检索能力,过程包括语句-url对提取、去重、支持验证。
      • 2个关键指标:引用准确率、有效引用数
  • 人类一致性验证
    • RACE框架和人类偏好度高度一致
      • 成对协议率:71.33%,总体皮尔逊相关系数:99.54%,过滤后的相关系数:60.24%、59.12%

数据集:

✍️实验设置

实验配置
  • DeepResearch:Gemini、Perplextiy、Grok、OpenAI
  • 模型+Search:GPT-4o、Gemini、Claude等。

🍑关键结果

关键结果
  • RACE:Gemini-2.5-Pro DeepResearch 去的最高分,其后是OpenAI的。
  • FACT:显示引用数量和准确率有个平衡。Gemini DeepResearch 有效引用最多,但准确率较低;Perplexity 准确率高,但引用数量少。

⛳未来方向

未来方向
总访客数:   ·   总访问量:
PLM's Blog @ 2016 - 2026