CAPOT: Creating Robust Dense Query Encoders using Post Training Contrastive Alignment

要約

タイトル:Post Training Contrastive Alignmentを使用した堅牢なクエリエンコーダーの作成(CAPOT)

要約:
– コンテキスト上の単語表現の成功と、ニューラル情報検索の進歩により、密ベクトルベースの検索が、パッセージや文書ランキングの標準的なアプローチとなっています。
– デュアルエンコーダーは効果的で効率的ですが、クエリの分布の変動やノイズのあるクエリに弱いという問題があります。
– データ拡張はモデルをより堅牢にすることができますが、トレーニングセットの生成にオーバーヘッドがかかり、再学習とインデックス再生成が必要になります。
– 我々は、インデックス再生成やトレーニングセットの最適化や変更を必要とせず、モデルの堅牢性を高める非常に効率的なfine-tuning方法であるContrastive Alignment POst Training(CAPOT)を提供します。
– CAPOTは、ドキュメントエンコーダーを凍結し、クエリエンコーダーがノイズの多いクエリをその変更前の根と整列するように学習することで、堅牢な検索を可能にします。
– MSMARCO、Natural Questions、Trivia QAパッセージリトリーバルのノイズのあるバリアントでCAPOTを評価し、CAPOTは、オーバーヘッドなしでデータ拡張と同じ効果を持つことがわかりました。

要約(オリジナル)

The success of contextual word representations and advances in neural information retrieval have made dense vector-based retrieval a standard approach for passage and document ranking. While effective and efficient, dual-encoders are brittle to variations in query distributions and noisy queries. Data augmentation can make models more robust but introduces overhead to training set generation and requires retraining and index regeneration. We present Contrastive Alignment POst Training (CAPOT), a highly efficient finetuning method that improves model robustness without requiring index regeneration, the training set optimization, or alteration. CAPOT enables robust retrieval by freezing the document encoder while the query encoder learns to align noisy queries with their unaltered root. We evaluate CAPOT noisy variants of MSMARCO, Natural Questions, and Trivia QA passage retrieval, finding CAPOT has a similar impact as data augmentation with none of its overhead.

arxiv情報

著者 Daniel Campos,ChengXiang Zhai,Alessandro Magnani
発行日 2023-04-06 22:16:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL, cs.IR パーマリンク