要約
多くの情報検索タスクでは、微調整のために大規模なラベル付きデータセットが必要です。
ただし、そのようなデータセットは利用できないことが多く、ドメインの移行により現実世界のアプリケーションでの有用性が急速に低下する可能性があります。
この課題に対処するために、私たちは大規模言語モデル (LLM) を使用して大量の合成クエリを安価に生成する方法を開発し、推進しています。
この方法は、高価な LLM を使用して少数の合成クエリを生成することから始まります。
その後、はるかに安価なクエリを使用して、リランカー モデルのファミリーを微調整するために使用される多数の合成クエリが作成されます。
これらのリランカーは、ターゲット ドメインで使用するための単一の効率的なリトリーバーに蒸留されます。
この手法により、ロングテール ドメインでのゼロショットの精度が向上し、標準的な再ランキング手法よりも大幅に低いレイテンシーが達成されることを示します。
要約(オリジナル)
Many information retrieval tasks require large labeled datasets for fine-tuning. However, such datasets are often unavailable, and their utility for real-world applications can diminish quickly due to domain shifts. To address this challenge, we develop and motivate a method for using large language models (LLMs) to generate large numbers of synthetic queries cheaply. The method begins by generating a small number of synthetic queries using an expensive LLM. After that, a much less expensive one is used to create large numbers of synthetic queries, which are used to fine-tune a family of reranker models. These rerankers are then distilled into a single efficient retriever for use in the target domain. We show that this technique boosts zero-shot accuracy in long-tail domains and achieves substantially lower latency than standard reranking methods.
arxiv情報
著者 | Jon Saad-Falcon,Omar Khattab,Keshav Santhanam,Radu Florian,Martin Franz,Salim Roukos,Avirup Sil,Md Arafat Sultan,Christopher Potts |
発行日 | 2023-10-13 17:23:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google