How Does Generative Retrieval Scale to Millions of Passages?

要約

Differentiable Search Index によって普及した生成検索の新たなパラダイムは、古典的な情報検索問題をシーケンスツーシーケンスのモデリング タスクに再構築し、外部インデックスを省略し、文書コーパス全体を単一の Transformer 内でエンコードします。
生成検索の有効性を向上させるために多くの異なるアプローチが提案されていますが、それらはサイズが 100k 程度の文書コーパスに対してのみ評価されています。
私たちは、さまざまなコーパス スケールにわたる生成検索技術の最初の実証研究を実施し、最終的には 880 万パッセージのコーパスを含む MS MARCO パッセージ ランキング タスク全体にスケールアップし、最大 11B パラメータまでのモデル サイズを評価します。
私たちは、生成検索を何百万ものパッセージに拡張することに関するいくつかの発見を明らかにしました。
特に、インデックス作成時に合成クエリを文書表現として使用することの中心的な重要性、計算コストを考慮した場合の既存の提案されているアーキテクチャ変更の非効率性、および検索パフォーマンスに関して単純にモデル パラメータをスケーリングすることの限界です。
生成検索は、小さなコーパスでは最先端のデュアルエンコーダと競合できることがわかっていますが、数百万のパッセージに拡張することは依然として重要かつ未解決の課題です。
私たちは、これらの発見はコミュニティにとって、生成検索の現状を明らかにし、特有の課題を浮き彫りにし、新たな研究の方向性を刺激する上で貴重なものになると信じています。

要約(オリジナル)

Popularized by the Differentiable Search Index, the emerging paradigm of generative retrieval re-frames the classic information retrieval problem into a sequence-to-sequence modeling task, forgoing external indices and encoding an entire document corpus within a single Transformer. Although many different approaches have been proposed to improve the effectiveness of generative retrieval, they have only been evaluated on document corpora on the order of 100k in size. We conduct the first empirical study of generative retrieval techniques across various corpus scales, ultimately scaling up to the entire MS MARCO passage ranking task with a corpus of 8.8M passages and evaluating model sizes up to 11B parameters. We uncover several findings about scaling generative retrieval to millions of passages; notably, the central importance of using synthetic queries as document representations during indexing, the ineffectiveness of existing proposed architecture modifications when accounting for compute cost, and the limits of naively scaling model parameters with respect to retrieval performance. While we find that generative retrieval is competitive with state-of-the-art dual encoders on small corpora, scaling to millions of passages remains an important and unsolved challenge. We believe these findings will be valuable for the community to clarify the current state of generative retrieval, highlight the unique challenges, and inspire new research directions.

arxiv情報

著者 Ronak Pradeep,Kai Hui,Jai Gupta,Adam D. Lelkes,Honglei Zhuang,Jimmy Lin,Donald Metzler,Vinh Q. Tran
発行日 2023-05-19 17:33:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR パーマリンク