Towards Better Instruction Following Retrieval Models

要約

標準<クエリ、パッセージ>ペアでのみ訓練された最新の情報検索(IR)モデルは、明示的なユーザーの指示に効果的に解釈して従うために苦労しています。
INF-IRを紹介します。これは、命令に従うIRで検索モデルを強化するために調整された大規模で高品質のトレーニングコーパスを紹介します。
INF-IRは、従来のトレーニングペアを38,000を超える表現力豊かな<命令、クエリ、パッセージ>トリプレットに拡大します。
特に、肯定的なトリプレットごとに、指示とクエリの両方を中毒することにより、2つの追加のハードネガティブ例を生成し、次に高度な推論モデル(O3-MINI)によって厳密に検証され、指導的誤りを維持しながら意味的に妥当性を確保します。
デコーダーのみの言語モデルの計算集中的な再ランキングタスクを主にサポートする既存のコーパスとは異なり、INF-IRの非常に対照的なポジティブネガティブトリプレットは、より小さなエンコーダのみのモデルの効率的な表現学習をさらに有効にし、直接埋め込みベースの検索を促進します。
このコーパスを使用して、対照的な学習と命令 – クエリの注意メカニズムを通じて最適化された命令を意識した埋め込みモデルであるInf-membedをトレーニングして、検索結果をユーザーの意図と正確に整列させます。
5つの命令ベースの検索ベンチマークにわたる広範な実験は、INF包摂がP-MRRで競争力のあるベースラインを8.1%上回り、命令に従う能力を測定することを示しています。

要約(オリジナル)

Modern information retrieval (IR) models, trained exclusively on standard pairs, struggle to effectively interpret and follow explicit user instructions. We introduce InF-IR, a large-scale, high-quality training corpus tailored for enhancing retrieval models in Instruction-Following IR. InF-IR expands traditional training pairs into over 38,000 expressive triplets as positive samples. In particular, for each positive triplet, we generate two additional hard negative examples by poisoning both instructions and queries, then rigorously validated by an advanced reasoning model (o3-mini) to ensure semantic plausibility while maintaining instructional incorrectness. Unlike existing corpora that primarily support computationally intensive reranking tasks for decoder-only language models, the highly contrastive positive-negative triplets in InF-IR further enable efficient representation learning for smaller encoder-only models, facilitating direct embedding-based retrieval. Using this corpus, we train InF-Embed, an instruction-aware Embedding model optimized through contrastive learning and instruction-query attention mechanisms to align retrieval outcomes precisely with user intents. Extensive experiments across five instruction-based retrieval benchmarks demonstrate that InF-Embed significantly surpasses competitive baselines by 8.1% in p-MRR, measuring the instruction-following capabilities.

arxiv情報

著者 Yuchen Zhuang,Aaron Trinh,Rushi Qiang,Haotian Sun,Chao Zhang,Hanjun Dai,Bo Dai
発行日 2025-05-27 17:14:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR パーマリンク