要約
Expert Domainsで命令に従う情報検索(IR)を評価するために設計された最初の包括的なベンチマークであるIFIRを紹介します。
IFIRには、2,426の高品質の例が含まれており、4つの専門ドメインにわたって8つのサブセットをカバーしています:財務、法律、ヘルスケア、科学文献。
各サブセットは、カスタマイズされた手順が重要な実際のシナリオを複製する1つ以上のドメイン固有の検索タスクに対応します。
IFIRは、さまざまなレベルの複雑さに命令を組み込むことにより、指導に従う検索機能の詳細な分析を可能にします。
また、次の指示においてモデルパフォーマンスのより正確で信頼できる評価を提供するための新しいLLMベースの評価方法を提案します。
LLMSに基づいたものを含む15のフロンティア検索モデルに関する広範な実験を通じて、我々の結果は、現在のモデルが複雑でドメイン固有の指示に従うことで効果的に重要な課題に直面していることを明らかにしています。
さらに、これらの制限を強調するための詳細な分析を提供し、レトリーバー開発の将来の進歩を導くための貴重な洞察を提供します。
要約(オリジナル)
We introduce IFIR, the first comprehensive benchmark designed to evaluate instruction-following information retrieval (IR) in expert domains. IFIR includes 2,426 high-quality examples and covers eight subsets across four specialized domains: finance, law, healthcare, and science literature. Each subset addresses one or more domain-specific retrieval tasks, replicating real-world scenarios where customized instructions are critical. IFIR enables a detailed analysis of instruction-following retrieval capabilities by incorporating instructions at different levels of complexity. We also propose a novel LLM-based evaluation method to provide a more precise and reliable assessment of model performance in following instructions. Through extensive experiments on 15 frontier retrieval models, including those based on LLMs, our results reveal that current models face significant challenges in effectively following complex, domain-specific instructions. We further provide in-depth analyses to highlight these limitations, offering valuable insights to guide future advancements in retriever development.
arxiv情報
著者 | Tingyu Song,Guo Gan,Mingsheng Shang,Yilun Zhao |
発行日 | 2025-03-06 17:32:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google