Query-as-context Pre-training for Dense Passage Retrieval

要約

最近、コンテキスト教師ありの事前トレーニングを使用して、密なパッセージ検索のパフォーマンスを向上させる方法が開発されました。
これらの方法では、同じドキュメントの 2 つのパッセージが関連性があると単純に見なされ、弱い相関関係にあるペアの可能性は考慮されません。
したがって、このホワイト ペーパーでは、この問題を軽減するためのシンプルでありながら効果的な事前トレーニング手法である、コンテキストとしてのクエリの事前トレーニングを提案します。
コンテキストとしてのクエリの事前トレーニングでは、パッセージから派生したクエリがそのパッセージに関連する可能性が高いと想定し、パッセージとクエリのペアを形成します。
これらのパッセージとクエリのペアは、対照的または生成的なコンテキスト教師付き事前トレーニングで使用されます。
事前トレーニング済みのモデルは、大規模なパッセージ検索ベンチマークとドメイン外ゼロ ショット ベンチマークで評価されます。
実験結果は、コンテキストとしてのクエリの事前トレーニングがかなりの利益をもたらし、その間にトレーニングをスピードアップし、その有効性と効率性を実証することを示しています。
コードは https://github.com/caskcsg/ir/tree/main/cotmae-qc で入手できます。

要約(オリジナル)

Recently, methods have been developed to improve the performance of dense passage retrieval by using context-supervised pre-training. These methods simply consider two passages from the same document to be relevant, without taking into account the possibility of weakly correlated pairs. Thus, this paper proposes query-as-context pre-training, a simple yet effective pre-training technique to alleviate the issue. Query-as-context pre-training assumes that the query derived from a passage is more likely to be relevant to that passage and forms a passage-query pair. These passage-query pairs are then used in contrastive or generative context-supervised pre-training. The pre-trained models are evaluated on large-scale passage retrieval benchmarks and out-of-domain zero-shot benchmarks. Experimental results show that query-as-context pre-training brings considerable gains and meanwhile speeds up training, demonstrating its effectiveness and efficiency. Our code will be available at https://github.com/caskcsg/ir/tree/main/cotmae-qc .

arxiv情報

著者 Xing Wu,Guangyuan Ma,Wanhui Qian,Zijia Lin,Fuzheng Zhang,Songlin Hu
発行日 2023-03-20 16:56:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR パーマリンク