要約
テキストの埋め込みモデルは、検索検索や検索の高級世代(RAG)に基づいたセマンティック検索や質問回答システムなどの情報検索アプリケーションに人気があります。
これらのモデルは通常、対照的な学習目標で微調整された変圧器モデルです。
微調整埋め込みモデルの挑戦的な側面の1つは、対照的な学習のための高品質の硬性陰性パッセージの選択です。
この論文では、正の関連性スコアを効果的な誤ったネガティブ除去のアンカーとして使用する肯定的なマイニング方法のファミリーを紹介し、より速いトレーニングとより正確な検索モデルにつながります。
さまざまな教師と基本モデルを探索し、構成に関する硬質陰性のマイニング方法に関するアブレーション研究を提供します。
さらに、NV-Retriever-V1モデルで提案されたマイニング方法の有効性を大規模に示します。これは、MTEB検索(BEIR)ベンチマークで60.9を獲得し、2024年7月にMTEB検索に公開されたときに1位になりました。
要約(オリジナル)
Text embedding models have been popular for information retrieval applications such as semantic search and Question-Answering systems based on Retrieval-Augmented Generation (RAG). Those models are typically Transformer models that are fine-tuned with contrastive learning objectives. One of the challenging aspects of fine-tuning embedding models is the selection of high quality hard-negative passages for contrastive learning. In this paper we introduce a family of positive-aware mining methods that use the positive relevance score as an anchor for effective false negative removal, leading to faster training and more accurate retrieval models. We provide an ablation study on hard-negative mining methods over their configurations, exploring different teacher and base models. We further demonstrate the efficacy of our proposed mining methods at scale with the NV-Retriever-v1 model, which scores 60.9 on MTEB Retrieval (BEIR) benchmark and placed 1st when it was published to the MTEB Retrieval on July, 2024.
arxiv情報
著者 | Gabriel de Souza P. Moreira,Radek Osmulski,Mengyao Xu,Ronay Ak,Benedikt Schifferer,Even Oldridge |
発行日 | 2025-02-07 15:17:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google