Contextual Document Embeddings

要約

高密度のドキュメント埋め込みは、ニューラル検索の中心です。
主流のパラダイムは、個々のドキュメントに対して直接エンコーダーを実行することによって埋め込みをトレーニングおよび構築することです。
この研究では、これらの埋め込みは効果的ではあるものの、対象を絞った検索のユースケースでは暗黙的にコンテキスト外であること、およびコンテキスト化されたドキュメントの埋め込みでは、コンテキスト化された単語と同様に、コンテキスト内でドキュメントと隣接するドキュメントの両方を考慮する必要があると主張します。
埋め込み。
我々は、コンテキスト化されたドキュメント埋め込みのための 2 つの補完的な方法を提案します。1 つは、バッチ内のコンテキスト損失にドキュメントの近傍を明示的に組み込む、代替の対照的な学習目標です。
2 つ目は、隣接するドキュメント情報をエンコードされた表現に明示的にエンコードする新しいコンテキスト アーキテクチャです。
結果は、両方の方法がいくつかの設定でビアンコーダーよりも優れたパフォーマンスを達成し、その違いがドメイン外で特に顕著であることを示しています。
ハード ネガティブ マイニング、スコア蒸留、データセット固有の命令、GPU 内のサンプル共有、または非常に大きなバッチ サイズを使用せずに、MTEB ベンチマークで最先端の結果を達成します。
私たちの方法は、あらゆる対比学習データセットやバイエンコーダのパフォーマンスを向上させるために適用できます。

要約(オリジナル)

Dense document embeddings are central to neural retrieval. The dominant paradigm is to train and construct embeddings by running encoders directly on individual documents. In this work, we argue that these embeddings, while effective, are implicitly out-of-context for targeted use cases of retrieval, and that a contextualized document embedding should take into account both the document and neighboring documents in context – analogous to contextualized word embeddings. We propose two complementary methods for contextualized document embeddings: first, an alternative contrastive learning objective that explicitly incorporates the document neighbors into the intra-batch contextual loss; second, a new contextual architecture that explicitly encodes neighbor document information into the encoded representation. Results show that both methods achieve better performance than biencoders in several settings, with differences especially pronounced out-of-domain. We achieve state-of-the-art results on the MTEB benchmark with no hard negative mining, score distillation, dataset-specific instructions, intra-GPU example-sharing, or extremely large batch sizes. Our method can be applied to improve performance on any contrastive learning dataset and any biencoder.

arxiv情報

著者 John X. Morris,Alexander M. Rush
発行日 2024-10-18 17:18:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク