Noise-Robust Dense Retrieval via Contrastive Alignment Post Training

要約

タイトル:コントラスティブアラインメントポストトレーニングによるノイズロバストな密な検索

要約:

-文章と文書のランキングに対する密なベクトルベースの検索は、コンテキスト単語表現の成功とニューラル情報検索の進歩により効果的かつ効率的になっています。
– しかし、デュアルエンコーダーは、クエリ分布のバリエーションやノイズのあるクエリに対して脆弱です。
– データ拡張はモデルをより堅牢にすることができますが、トレーニングセットの生成にオーバーヘッドがかかり、再トレーニングやインデックス生成が必要です。
-研究者らは、インデックスの再生成、トレーニングセットの最適化、または変更を必要とせず、モデルの堅牢性を向上させる非常に効率的な微調整方法である「コントラスティブアラインメントポストトレーニング(CAPOT)」を提示します。
– CAPOTは、クエリエンコーダーがノイズのあるクエリをその変更前のルートに合わせる学習をする間、ドキュメントエンコーダーを凍結することで堅牢な検索を可能にします。
– MSMARCO、Natural Questions、Trivia QAのパッセージ検索のノイズのあるバリアントを評価し、CAPOTは、データ拡張に似た効果を持ち、そのオーバーヘッドはないことがわかりました。

要約(オリジナル)

The success of contextual word representations and advances in neural information retrieval have made dense vector-based retrieval a standard approach for passage and document ranking. While effective and efficient, dual-encoders are brittle to variations in query distributions and noisy queries. Data augmentation can make models more robust but introduces overhead to training set generation and requires retraining and index regeneration. We present Contrastive Alignment POst Training (CAPOT), a highly efficient finetuning method that improves model robustness without requiring index regeneration, the training set optimization, or alteration. CAPOT enables robust retrieval by freezing the document encoder while the query encoder learns to align noisy queries with their unaltered root. We evaluate CAPOT noisy variants of MSMARCO, Natural Questions, and Trivia QA passage retrieval, finding CAPOT has a similar impact as data augmentation with none of its overhead.

arxiv情報

著者 Daniel Campos,ChengXiang Zhai,Alessandro Magnani
発行日 2023-04-10 14:22:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL, cs.IR パーマリンク