要約
コミュニティの質問や回答から情報検索(IR)評価ベンチマークを自動的に構築するための再利用可能なフレームワークであるFressStackを紹介します。
FressStackは、次の手順を実施します。(1)コードと技術文書からの自動コーパスコレクション、(2)コミュニティの秘密の質問と回答からのナゲット生成、および(3)検索技術とハイブリッドアーキテクチャの融合を使用したナゲットレベルのサポート、ドキュメントの取得。
FreshStackを使用して、急速に成長し、最近の、ニッチなトピックに5つのデータセットを構築して、タスクが十分に困難であることを確認します。
FressStackでは、既存の検索モデルで、すぐに適用されると、5つのトピックすべてでOracleアプローチを大幅に下回り、IRの品質を向上させるための十分なヘッドルームを示します。
さらに、再生者が第1段階の検索精度を明確に改善しない場合(5つのトピックのうち2つ)を特定します。
FreshStackが、現実的でスケーラブルで、汚染されていないIRおよびRAG評価ベンチマークを構築するための将来の作業を促進することを願っています。
FreshStackデータセットは、https://fresh-stack.github.ioで入手できます。
要約(オリジナル)
We introduce FreshStack, a reusable framework for automatically building information retrieval (IR) evaluation benchmarks from community-asked questions and answers. FreshStack conducts the following steps: (1) automatic corpus collection from code and technical documentation, (2) nugget generation from community-asked questions and answers, and (3) nugget-level support, retrieving documents using a fusion of retrieval techniques and hybrid architectures. We use FreshStack to build five datasets on fast-growing, recent, and niche topics to ensure the tasks are sufficiently challenging. On FreshStack, existing retrieval models, when applied out-of-the-box, significantly underperform oracle approaches on all five topics, denoting plenty of headroom to improve IR quality. In addition, we identify cases where rerankers do not clearly improve first-stage retrieval accuracy (two out of five topics). We hope that FreshStack will facilitate future work toward constructing realistic, scalable, and uncontaminated IR and RAG evaluation benchmarks. FreshStack datasets are available at: https://fresh-stack.github.io.
arxiv情報
著者 | Nandan Thakur,Jimmy Lin,Sam Havens,Michael Carbin,Omar Khattab,Andrew Drozdov |
発行日 | 2025-04-17 17:44:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google