要約
大規模な言語モデル(LLM)ベースのListWise Reasoning Reranking AgentであるRearankを提示します。
Rearankは、再ランキングの前に明示的に推論し、パフォーマンスと解釈可能性の両方を大幅に改善します。
補強学習とデータ増強を活用して、Rearankは一般的な情報検索ベンチマーク全体でベースラインモデルよりも大幅な改善を達成し、特に179の注釈付きサンプルのみを必要とします。
QWEN2.5-7Bの上に構築されたLearank-7Bは、ドメイン内およびドメイン外のベンチマークの両方でGPT-4に匹敵するパフォーマンスを示し、推論集約型の明るいベンチマークでGPT-4を上回ります。
これらの結果は、私たちのアプローチの有効性を強調し、強化学習が再ランキングのLLM推論能力を高める方法を強調しています。
要約(オリジナル)
We present REARANK, a large language model (LLM)-based listwise reasoning reranking agent. REARANK explicitly reasons before reranking, significantly improving both performance and interpretability. Leveraging reinforcement learning and data augmentation, REARANK achieves substantial improvements over baseline models across popular information retrieval benchmarks, notably requiring only 179 annotated samples. Built on top of Qwen2.5-7B, our REARANK-7B demonstrates performance comparable to GPT-4 on both in-domain and out-of-domain benchmarks and even surpasses GPT-4 on reasoning-intensive BRIGHT benchmarks. These results underscore the effectiveness of our approach and highlight how reinforcement learning can enhance LLM reasoning capabilities in reranking.
arxiv情報
著者 | Le Zhang,Bo Wang,Xipeng Qiu,Siva Reddy,Aishwarya Agrawal |
発行日 | 2025-05-26 14:31:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google