Conan-embedding: General Text Embedding with More and Better Negative Samples

要約

RAG の人気が高まるにつれて、モデルを埋め込む機能への注目が高まっています。
埋め込みモデルは主に、負の例が主要なコンポーネントである対比損失学習を通じてトレーニングされます。
これまでの研究では、さまざまなハード ネガティブ マイニング戦略が提案されてきましたが、これらの戦略は通常、前処理ステップとして使用されます。
この論文では、より多くの高品質なネガティブ サンプルを最大限に活用する conan 埋め込みモデルを提案します。
具体的には、前処理されたネガティブ サンプルを処理するモデルの能力はトレーニング中に進化するため、トレーニング プロセス全体を通じてモデルをより困難なネガティブ サンプルにさらす動的ハード ネガティブ マイニング手法を提案します。
第 2 に、対照学習にはできるだけ多くの負の例が必要ですが、GPU メモリの制約によって制限されます。
したがって、クロス GPU バランシング損失を使用して、埋め込みトレーニングのより負の例を提供し、複数のタスク間でバッチ サイズのバランスをとります。
さらに、LLM からの即時応答ペアが埋め込みトレーニングに使用できることも発見しました。
私たちのアプローチは埋め込みモデルの機能を効果的に強化し、現在、大規模テキスト埋め込みベンチマークの中国リーダーボードで第 1 位にランクされています。

要約(オリジナル)

With the growing popularity of RAG, the capabilities of embedding models are gaining increasing attention. Embedding models are primarily trained through contrastive loss learning, with negative examples being a key component. Previous work has proposed various hard negative mining strategies, but these strategies are typically employed as preprocessing steps. In this paper, we propose the conan-embedding model, which maximizes the utilization of more and higher-quality negative examples. Specifically, since the model’s ability to handle preprocessed negative examples evolves during training, we propose dynamic hard negative mining method to expose the model to more challenging negative examples throughout the training process. Secondly, contrastive learning requires as many negative examples as possible but is limited by GPU memory constraints. Therefore, we use a Cross-GPU balancing Loss to provide more negative examples for embedding training and balance the batch size across multiple tasks. Moreover, we also discovered that the prompt-response pairs from LLMs can be used for embedding training. Our approach effectively enhances the capabilities of embedding models, currently ranking first on the Chinese leaderboard of Massive text embedding benchmark

arxiv情報

著者 Shiyu Li,Yang Tang,Shizhe Chen,Xi Chen
発行日 2024-08-29 14:47:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク