要約
情報検索 (IR) 手法のパフォーマンスのベンチマークは、ほとんどの場合、固定された文書セット (静的コーパス) を使用して行われます。
現実的なシナリオでは、これが当てはまることはほとんどなく、取得されるドキュメントは常に更新および追加されます。
この論文では、検索対象のコーパスが更新される動的なシナリオにおいて、現代の検索システムの 2 つのカテゴリ、デュアル エンコーダ (DE) と生成検索 (GR) の間の包括的な比較を行うことに焦点を当てます。
また、実際の展開における IR システムの重要な要素である計算効率とメモリ効率の広範な評価も実施します。
私たちの結果は、GR が知識の進化により適応し (StreamingQA ベンチマークで +13 ~ 18%)、時間情報を含むデータの処理に堅牢であり (x 10 倍)、メモリの点で効率的 (x 4 倍)、インデックス作成時間であることを示しています。
(x 6 回)、および推論のフロップ (x 10 回)。
私たちの論文では、実用的な IR システムで将来使用できる GR の可能性を強調しています。
要約(オリジナル)
Benchmarking the performance of information retrieval (IR) methods are mostly conducted with a fixed set of documents (static corpora); in realistic scenarios, this is rarely the case and the document to be retrieved are constantly updated and added. In this paper, we focus on conducting a comprehensive comparison between two categories of contemporary retrieval systems, Dual Encoders (DE) and Generative Retrievals (GR), in a dynamic scenario where the corpora to be retrieved is updated. We also conduct an extensive evaluation of computational and memory efficiency, crucial factors for IR systems for real-world deployment. Our results demonstrate that GR is more adaptable to evolving knowledge (+13-18% on the StreamingQA Benchmark), robust in handling data with temporal information (x 10 times), and efficient in terms of memory (x 4 times), indexing time (x 6 times), and inference flops (x 10 times). Our paper highlights GR’s potential for future use in practical IR systems.
arxiv情報
著者 | Soyoung Yoon,Chaeeun Kim,Hyunji Lee,Joel Jang,Sohee Yang,Minjoon Seo |
発行日 | 2023-11-16 11:51:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google