Fixing Data That Hurts Performance: Cascading LLMs to Relabel Hard Negatives for Robust Information Retrieval

要約

トレーニング堅牢な検索および再生モデルは、通常、大規模な検索データセットに依存しています。
たとえば、BGEコレクションには、さまざまなデータソースから供給された160万のクエリパサージペアが含まれています。
ただし、特定のデータセットがモデルの有効性に悪影響を与える可能性があることがわかります。BGEコレクションの15のデータセットのうち8個を剪定すると、トレーニングセットのサイズが2.35 $ \ Times $を削減し、BeirのNDCG@10が1.0ポイント増加します。
これは、関連するパッセージが無関係であると誤ってラベル付けされている「偽のネガ」に特に焦点を当てたトレーニングデータの品質のより深い調査を動機付けます。
Cascading LLMプロンプトを使用して、ハードネガを識別し、再確認するためのシンプルで費用対効果の高いアプローチを提案します。
実験結果は、真の陽性との偽陰性を再生することで、Beirで0.7-1.4 NDCG@10、ゼロショットエアベンチ評価で1.7-1.8 NDCG@10でQWEN2.5-7B検索モデルの両方を改善することを示しています。
BeirのQWEN2.5-3Bなど、リラクテルドデータで微調整された再審査員についても同様の利益が観察されます。
カスケード設計の信頼性は、GPT-4oによる判断がGPT-4o-Miniよりもはるかに高い人間との一致を示す人間の注釈結果によってさらにサポートされています。

要約(オリジナル)

Training robust retrieval and reranker models typically relies on large-scale retrieval datasets; for example, the BGE collection contains 1.6 million query-passage pairs sourced from various data sources. However, we find that certain datasets can negatively impact model effectiveness — pruning 8 out of 15 datasets from the BGE collection reduces the training set size by 2.35$\times$ and increases nDCG@10 on BEIR by 1.0 point. This motivates a deeper examination of training data quality, with a particular focus on ‘false negatives’, where relevant passages are incorrectly labeled as irrelevant. We propose a simple, cost-effective approach using cascading LLM prompts to identify and relabel hard negatives. Experimental results show that relabeling false negatives with true positives improves both E5 (base) and Qwen2.5-7B retrieval models by 0.7-1.4 nDCG@10 on BEIR and by 1.7-1.8 nDCG@10 on zero-shot AIR-Bench evaluation. Similar gains are observed for rerankers fine-tuned on the relabeled data, such as Qwen2.5-3B on BEIR. The reliability of the cascading design is further supported by human annotation results, where we find judgment by GPT-4o shows much higher agreement with humans than GPT-4o-mini.

arxiv情報

著者 Nandan Thakur,Crystina Zhang,Xueguang Ma,Jimmy Lin
発行日 2025-05-22 17:47:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR パーマリンク