UDAPDR: Unsupervised Domain Adaptation via LLM Prompting and Distillation of Rerankers

要約

多くの情報検索タスクでは、微調整のために大規模なラベル付きデータセットが必要です。
ただし、そのようなデータセットは利用できないことが多く、ドメインの移行により現実世界のアプリケーションでの有用性が急速に低下する可能性があります。
この課題に対処するために、私たちは大規模言語モデル (LLM) を使用して大量の合成クエリを安価に生成する方法を開発し、推進しています。
この方法は、高価な LLM を使用して少数の合成クエリを生成することから始まります。
その後、はるかに安価なクエリを使用して、リランカー モデルのファミリーを微調整するために使用される多数の合成クエリが作成されます。
これらのリランカーは、ターゲット ドメインで使用するための単一の効率的なリトリーバーに蒸留されます。
この手法により、微調整に 2K 合成クエリのみが使用される場合でも、ロングテール ドメインでのゼロショット精度が向上し、標準的な再ランキング手法よりも大幅に低いレイテンシーが達成されることを示します。
私たちは、合成データセットやレプリケーション コードを含むエンドツーエンドのアプローチを Github: https://github.com/primeqa/primeqa で公開しています。

要約(オリジナル)

Many information retrieval tasks require large labeled datasets for fine-tuning. However, such datasets are often unavailable, and their utility for real-world applications can diminish quickly due to domain shifts. To address this challenge, we develop and motivate a method for using large language models (LLMs) to generate large numbers of synthetic queries cheaply. The method begins by generating a small number of synthetic queries using an expensive LLM. After that, a much less expensive one is used to create large numbers of synthetic queries, which are used to fine-tune a family of reranker models. These rerankers are then distilled into a single efficient retriever for use in the target domain. We show that this technique boosts zero-shot accuracy in long-tail domains, even where only 2K synthetic queries are used for fine-tuning, and that it achieves substantially lower latency than standard reranking methods. We make our end-to-end approach, including our synthetic datasets and replication code, publicly available on Github: https://github.com/primeqa/primeqa.

arxiv情報

著者 Jon Saad-Falcon,Omar Khattab,Keshav Santhanam,Radu Florian,Martin Franz,Salim Roukos,Avirup Sil,Md Arafat Sultan,Christopher Potts
発行日 2023-05-22 17:59:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR パーマリンク