How to Train Your DRAGON: Diverse Augmentation Towards Generalizable Dense Retrieval

要約

近年、教師なし対照学習や疑似クエリ生成など、高密度検索 (DR) を改善するためのさまざまな手法が開発されています。
ただし、既存の DR は、教師付き検索とゼロ ショット検索の間の有効性のトレードオフに悩まされることが多く、これはモデルの容量が限られていることが原因であると主張する人もいます。
この仮説に反論し、モデル サイズを大きくすることなく、一般化可能な DR をトレーニングして、教師あり検索とゼロ ショット検索の両方で高い精度を達成できることを示します。
特に、Data Augmentation (DA) の枠組みの下で、DR の対照的な学習を体系的に調べます。
私たちの調査では、生成モデルを使用したクエリ拡張やクロスエンコーダーを使用した疑似関連ラベルの作成などの一般的な DA プラクティスは、多くの場合、非効率的で最適ではないことが示されています。
したがって、一般化可能なDRを段階的にトレーニングするために、多様なクエリと監視のソースを備えた新しいDAアプローチを提案します。
その結果、さまざまな増強で訓練された当社の高密度レトリーバーである DRAGON は、教師あり評価とゼロ ショット評価の両方で最先端の有効性を達成する最初の BERT ベース サイズの DR であり、より複雑な後半を使用するモデルと競合することさえあります。
相互作用 (ColBERTv2 および SPLADE++)。

要約(オリジナル)

Various techniques have been developed in recent years to improve dense retrieval (DR), such as unsupervised contrastive learning and pseudo-query generation. Existing DRs, however, often suffer from effectiveness tradeoffs between supervised and zero-shot retrieval, which some argue was due to the limited model capacity. We contradict this hypothesis and show that a generalizable DR can be trained to achieve high accuracy in both supervised and zero-shot retrieval without increasing model size. In particular, we systematically examine the contrastive learning of DRs, under the framework of Data Augmentation (DA). Our study shows that common DA practices such as query augmentation with generative models and pseudo-relevance label creation using a cross-encoder, are often inefficient and sub-optimal. We hence propose a new DA approach with diverse queries and sources of supervision to progressively train a generalizable DR. As a result, DRAGON, our dense retriever trained with diverse augmentation, is the first BERT-base-sized DR to achieve state-of-the-art effectiveness in both supervised and zero-shot evaluations and even competes with models using more complex late interaction (ColBERTv2 and SPLADE++).

arxiv情報

著者 Sheng-Chieh Lin,Akari Asai,Minghan Li,Barlas Oguz,Jimmy Lin,Yashar Mehdad,Wen-tau Yih,Xilun Chen
発行日 2023-02-15 03:53:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR パーマリンク