R-Search: Empowering LLM Reasoning with Search via Multi-Reward Reinforcement Learning

要約

大規模な言語モデル（LLM）は、特にマルチステップおよび長鎖の推論で進行しています。
ただし、モデルが最適な推論検索相互作用の軌跡を特定できず、最適ではない応答をもたらすことが多いため、検索との深い相互作用を含む推論能力を拡張することは非自明の課題のままです。
LLMが深い検索相互作用でマルチステップ推論を自律的に実行できるように設計され、複雑な報酬信号を介して最適な検索相互作用の軌跡を学習し、複雑な論理および知識に敏感なタスクの応答品質を改善するように設計された、推論検索統合のための新しい強化学習フレームワークであるR-Searchを提案します。
R-SearchはLLMをガイドして、いつ取得または推論するかを動的に決定する一方で、主要な証拠をグローバルに統合して、推論と検索の間の深い知識の相互作用を強化します。
RLトレーニング中、R-Searchは、Reasoning-Searchの軌跡を共同で最適化するために、マルチステージのマルチタイプの報酬を提供します。
7つのデータセットでの実験では、R-Searchが高度なRAGベースラインを最大32.2％（領域内）および25.1％（領域外）よりも優れていることが示されています。
コードとデータは、https：//github.com/qingfei1/r-searchで入手できます。

要約(オリジナル)

Large language models (LLMs) have notably progressed in multi-step and long-chain reasoning. However, extending their reasoning capabilities to encompass deep interactions with search remains a non-trivial challenge, as models often fail to identify optimal reasoning-search interaction trajectories, resulting in suboptimal responses. We propose R-Search, a novel reinforcement learning framework for Reasoning-Search integration, designed to enable LLMs to autonomously execute multi-step reasoning with deep search interaction, and learn optimal reasoning search interaction trajectories via multi-reward signals, improving response quality in complex logic- and knowledge-intensive tasks. R-Search guides the LLM to dynamically decide when to retrieve or reason, while globally integrating key evidence to enhance deep knowledge interaction between reasoning and search. During RL training, R-Search provides multi-stage, multi-type rewards to jointly optimize the reasoning-search trajectory. Experiments on seven datasets show that R-Search outperforms advanced RAG baselines by up to 32.2% (in-domain) and 25.1% (out-of-domain). The code and data are available at https://github.com/QingFei1/R-Search.

arxiv情報

著者	Qingfei Zhao,Ruobing Wang,Dingling Xu,Daren Zha,Limin Liu
発行日	2025-06-04 17:29:22+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

R-Search: Empowering LLM Reasoning with Search via Multi-Reward Reinforcement Learning

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー