DeepResearch Bench: A Comprehensive Benchmark for Deep Research Agents

要約

ディープリサーチエージェントは、LLMベースのエージェントの顕著なカテゴリです。
MultiStep Web探索、ターゲットを絞った検索、および高次の合成を自律的に調整することにより、それらは膨大な量のオンライン情報をアナリストグレードの引用豊富なレポートに変換します。
ただし、これらのエージェントの機能を体系的に評価するための包括的なベンチマークは存在しません。
このギャップを埋めるために、100のPHDレベルの研究タスクで構成されるベンチマークであるDeepresearch Benchを提示します。それぞれが22の異なる分野でドメインの専門家によって細心の注意を払って作成されています。
DRAの評価は本質的に複雑で労働集約的です。
したがって、人間の判断と強い整合性を達成する2つの新しい方法論を提案します。
1つ目は、生成された研究レポートの品質を評価するための適応基準を備えた参照ベースの方法です。
他のフレームワークは、効果的な引用数と全体的な引用の精度を評価することにより、DRAの情報検索機能と収集機能を評価するために導入されています。
https://github.com/ayanami0730/deep_research_benchに、これらのフレームワークのオープンソースのディープレッジベンチと主要なコンポーネントがあり、実用的なLLMベースのエージェントの開発を加速します。

要約(オリジナル)

Deep Research Agents are a prominent category of LLM-based agents. By autonomously orchestrating multistep web exploration, targeted retrieval, and higher-order synthesis, they transform vast amounts of online information into analyst-grade, citation-rich reports–compressing hours of manual desk research into minutes. However, a comprehensive benchmark for systematically evaluating the capabilities of these agents remains absent. To bridge this gap, we present DeepResearch Bench, a benchmark consisting of 100 PhD-level research tasks, each meticulously crafted by domain experts across 22 distinct fields. Evaluating DRAs is inherently complex and labor-intensive. We therefore propose two novel methodologies that achieve strong alignment with human judgment. The first is a reference-based method with adaptive criteria to assess the quality of generated research reports. The other framework is introduced to evaluate DRA’s information retrieval and collection capabilities by assessing its effective citation count and overall citation accuracy. We have open-sourced DeepResearch Bench and key components of these frameworks at https://github.com/Ayanami0730/deep_research_bench to accelerate the development of practical LLM-based agents.

arxiv情報

著者 Mingxuan Du,Benfeng Xu,Chiwei Zhu,Xiaorui Wang,Zhendong Mao
発行日 2025-06-13 13:17:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR パーマリンク