Pre-training with Large Language Model-based Document Expansion for Dense Passage Retrieval

要約

この論文では、高密度パッセージ検索のための大規模言語モデル (LLM) ベースの文書拡張による事前トレーニングの可能性を体系的に研究します。
具体的には、文書拡張 (クエリ生成など) に LLM の機能を活用し、パッセージ検索に合わせた事前トレーニング戦略を使用して、拡張された知識を取得者に効果的に転送します。
これらの戦略には、対比学習とボトルネック クエリの生成が含まれます。
さらに、LLM 推論への依存を減らすためにカリキュラム学習戦略を組み込んでいます。
実験結果は、LLM ベースの文書拡張による事前トレーニングにより、大規模な Web 検索タスクの検索パフォーマンスが大幅に向上することを示しています。
私たちの研究では、強力なゼロショットおよびドメイン外の検索能力を示しており、人間がラベル付けしたデータを使用せずに初期化する場合の検索にさらに広く適用できるようになりました。

要約(オリジナル)

In this paper, we systematically study the potential of pre-training with Large Language Model(LLM)-based document expansion for dense passage retrieval. Concretely, we leverage the capabilities of LLMs for document expansion, i.e. query generation, and effectively transfer expanded knowledge to retrievers using pre-training strategies tailored for passage retrieval. These strategies include contrastive learning and bottlenecked query generation. Furthermore, we incorporate a curriculum learning strategy to reduce the reliance on LLM inferences. Experimental results demonstrate that pre-training with LLM-based document expansion significantly boosts the retrieval performance on large-scale web-search tasks. Our work shows strong zero-shot and out-of-domain retrieval abilities, making it more widely applicable for retrieval when initializing with no human-labeled data.

arxiv情報

著者 Guangyuan Ma,Xing Wu,Peng Wang,Zijia Lin,Songlin Hu
発行日 2023-08-16 11:10:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR パーマリンク