Back to Basics: A Simple Recipe for Improving Out-of-Domain Retrieval in Dense Encoders

要約

現在の一般的な研究手法は、MSMARCO などの既存の大規模データセットで高密度レトリーバーをトレーニングし、未知の領域に対するゼロショット汎化機能を向上させる方法を実験することに依存していることがよくあります。
これまでの研究では、データの拡張、アーキテクチャの変更、モデル サイズの拡大、さらにはベース モデルのさらなる事前トレーニングなど、リソースを大量に使用する手順を通じてこの課題に取り組んできましたが、トレーニング手順自体を改善して、より優れた一般化機能を実現できるかどうかを検討した調査は比較的少ないです。
結果として得られるモデル。
この作業では、高密度エンコーダーをトレーニングするためのシンプルなレシピをお勧めします。LoRA などのパラメーター効率の高いメソッドを使用して MSMARCO でトレーニングし、適切に構築されたハード ネガが指定されていない限り、バッチ内ネガを使用することを選択します。
BEIR ベンチマークを使用してこれらの推奨事項を検証したところ、結果は高密度エンコーダーとベース モデル サイズの選択全体で持続的であり、アーキテクチャの変更や追加の事前トレーニングなど、ドメイン外の一般化のためのリソースを大量に使用する他の戦略を補完するものであることがわかりました。
私たちは、他のリソースを大量に消費する手法を補強するさまざまなトレーニング手法に関するこの徹底した公平な研究が、単一のデータセットでトレーニングされた場合でも効果的に一般化する高密度検索モデルを開発するための実用的な洞察を提供することを願っています。

要約(オリジナル)

Prevailing research practice today often relies on training dense retrievers on existing large datasets such as MSMARCO and then experimenting with ways to improve zero-shot generalization capabilities to unseen domains. While prior work has tackled this challenge through resource-intensive steps such as data augmentation, architectural modifications, increasing model size, or even further base model pretraining, comparatively little investigation has examined whether the training procedures themselves can be improved to yield better generalization capabilities in the resulting models. In this work, we recommend a simple recipe for training dense encoders: Train on MSMARCO with parameter-efficient methods, such as LoRA, and opt for using in-batch negatives unless given well-constructed hard negatives. We validate these recommendations using the BEIR benchmark and find results are persistent across choice of dense encoder and base model size and are complementary to other resource-intensive strategies for out-of-domain generalization such as architectural modifications or additional pretraining. We hope that this thorough and impartial study around various training techniques, which augments other resource-intensive methods, offers practical insights for developing a dense retrieval model that effectively generalizes, even when trained on a single dataset.

arxiv情報

著者 Hyunji Lee,Luca Soldaini,Arman Cohan,Minjoon Seo,Kyle Lo
発行日 2023-11-16 10:42:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR パーマリンク