BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval

要約

既存の検索ベンチマークは主に情報を求めるクエリ (検索エンジンからの集約された質問など) で構成されており、通常はキーワードまたはセマンティックベースの検索で十分です。
ただし、実際の複雑なクエリの多くは、表面的な形式の一致を超えて、関連するドキュメントを特定するための詳細な推論を必要とします。
たとえば、コーディングに関する質問のドキュメントを見つけるには、関連する関数のロジックと構文を理解する必要があります。
このような困難なクエリに対するベンチマーク検索を改善するために、関連するドキュメントを取得するために集中的な推論を必要とする初のテキスト検索ベンチマークである BRIGHT を導入します。
私たちのデータセットは、経済学、心理学、数学、コーディングなどのさまざまな領域にわたる 1,384 の実世界のクエリで構成されています。
これらのクエリは、自然に発生し、慎重に厳選された人間のデータから抽出されます。
広範な評価により、最先端の検索モデルでさえ BRIGHT ではパフォーマンスが低いことが明らかになりました。
MTEB リーダーボードの主要モデル (Muennighoff et al., 2023) は、59.0 nDCG@10 のスコアを達成しており、BRIGHT では 18.3 の nDCG@10 スコアを生成します。
クエリに関する明示的な推論を組み込むと、検索パフォーマンスが最大 12.2 ポイント向上することがわかります。
さらに、トップパフォーマンスの取得者から取得したドキュメントを組み込むと、質問応答パフォーマンスが 6.6 ポイント以上向上します。
私たちは、BRIGHT がより現実的で挑戦的な設定における検索システムの将来の研究への道を開くと信じています。

要約(オリジナル)

Existing retrieval benchmarks primarily consist of information-seeking queries (e.g., aggregated questions from search engines) where keyword or semantic-based retrieval is usually sufficient. However, many complex real-world queries require in-depth reasoning to identify relevant documents that go beyond surface form matching. For example, finding documentation for a coding question requires understanding the logic and syntax of the functions involved. To better benchmark retrieval on such challenging queries, we introduce BRIGHT, the first text retrieval benchmark that requires intensive reasoning to retrieve relevant documents. Our dataset consists of 1,384 real-world queries spanning diverse domains, such as economics, psychology, mathematics, and coding. These queries are drawn from naturally occurring and carefully curated human data. Extensive evaluation reveals that even state-of-the-art retrieval models perform poorly on BRIGHT. The leading model on the MTEB leaderboard (Muennighoff et al., 2023), which achieves a score of 59.0 nDCG@10, produces a score of nDCG@10 of 18.3 on BRIGHT. We show that incorporating explicit reasoning about the query improves retrieval performance by up to 12.2 points. Moreover, incorporating retrieved documents from the top-performing retriever boosts question-answering performance by over 6.6 points. We believe that BRIGHT paves the way for future research on retrieval systems in more realistic and challenging settings.

arxiv情報

著者 Hongjin Su,Howard Yen,Mengzhou Xia,Weijia Shi,Niklas Muennighoff,Han-yu Wang,Haisu Liu,Quan Shi,Zachary S. Siegel,Michael Tang,Ruoxi Sun,Jinsung Yoon,Sercan O. Arik,Danqi Chen,Tao Yu
発行日 2024-10-22 17:49:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR パーマリンク