NV-Retriever: Improving text embedding models with effective hard-negative mining

要約

テキスト埋め込みモデルは、検索拡張生成 (RAG) に基づくセマンティック検索や質問応答システムなどの情報検索アプリケーションで人気があります。
これらのモデルは通常、対照的な学習目標に合わせて微調整された Transformer モデルです。
多くの論文で新しい埋め込みモデル アーキテクチャとトレーニング アプローチが紹介されていますが、重要な要素の 1 つであるネガティブなパッセージをマイニングするプロセスについては、十分に調査も説明もされていないままです。
埋め込みモデルの微調整における困難な側面の 1 つは、対照学習用の高品質のハードネガティブパッセージの選択です。
この論文では、より効果的に偽陰性を除去するためにポジティブ関連性スコアを活用する一連のポジティブ認識マイニング手法を提案します。
また、ハードネガティブマイニング手法の構成に関する包括的なアブレーション研究も提供し、さまざまな教師モデルとベースモデルを調査します。
MTEB Retrieval (BEIR) ベンチマークで 60.9 点を獲得し、以前の方法より 0.65 ポイント高い NV-Retriever-v1 モデルを導入することで、提案された方法の有効性を実証します。
このモデルは、2024 年 7 月 7 日に MTEB Retrieval に公開されたときに 1 位になりました。

要約(オリジナル)

Text embedding models have been popular for information retrieval applications such as semantic search and Question-Answering systems based on Retrieval-Augmented Generation (RAG). Those models are typically Transformer models that are fine-tuned with contrastive learning objectives. Many papers introduced new embedding model architectures and training approaches, however, one of the key ingredients, the process of mining negative passages, remains poorly explored or described. One of the challenging aspects of fine-tuning embedding models is the selection of high quality hard-negative passages for contrastive learning. In this paper we propose a family of positive-aware mining methods that leverage the positive relevance score for more effective false negatives removal. We also provide a comprehensive ablation study on hard-negative mining methods over their configurations, exploring different teacher and base models. We demonstrate the efficacy of our proposed methods by introducing the NV-Retriever-v1 model, which scores 60.9 on MTEB Retrieval (BEIR) benchmark and 0.65 points higher than previous methods. The model placed 1st when it was published to MTEB Retrieval on July 07, 2024.

arxiv情報

著者 Gabriel de Souza P. Moreira,Radek Osmulski,Mengyao Xu,Ronay Ak,Benedikt Schifferer,Even Oldridge
発行日 2024-07-22 17:50:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR パーマリンク