要約
大規模な言語モデル(LLM)の効果的な推論とテキスト生成には、外部の知識と最新情報を効率的に取得することが不可欠です。
LLMが検索エンジンと最適に対話する方法に関する機能を完全に持っていない可能性があるため、推論中に検索エンジンを使用する推論機能を備えた高度なLLMSが最適ではないことがよくあります。
このペーパーでは、LLMがリアルタイム検索でステップバイステップの推論中に(複数の)検索クエリを自律的に生成することを学習する推論フレームワークのための強化学習(RL)の拡張であるSearch-R1を紹介します。
Search-R1は、マルチターン検索インタラクションを使用してLLM推論の軌跡を最適化し、安定したRLトレーニングのための検索されたトークンマスキングと単純な結果ベースの報酬機能を活用します。
7つの質問回答データセットの実験では、Search-R1が同じ設定でさまざまなRAGベースラインで41%(QWEN2.5-7B)および20%(QWEN2.5-3B)のパフォーマンスを向上させることが示されています。
このペーパーでは、検索された推論におけるRL最適化方法、LLMの選択、および応答長ダイナミクスに関する経験的洞察をさらに提供します。
コードとモデルのチェックポイントは、https://github.com/petergriffinjin/search-r1で入手できます。
要約(オリジナル)
Efficiently acquiring external knowledge and up-to-date information is essential for effective reasoning and text generation in large language models (LLMs). Prompting advanced LLMs with reasoning capabilities to use search engines during inference is often suboptimal, as the LLM might not fully possess the capability on how to interact optimally with the search engine. This paper introduces Search-R1, an extension of reinforcement learning (RL) for reasoning frameworks where the LLM learns to autonomously generate (multiple) search queries during step-by-step reasoning with real-time retrieval. Search-R1 optimizes LLM reasoning trajectories with multi-turn search interactions, leveraging retrieved token masking for stable RL training and a simple outcome-based reward function. Experiments on seven question-answering datasets show that Search-R1 improves performance by 41% (Qwen2.5-7B) and 20% (Qwen2.5-3B) over various RAG baselines under the same setting. This paper further provides empirical insights into RL optimization methods, LLM choices, and response length dynamics in retrieval-augmented reasoning. The code and model checkpoints are available at https://github.com/PeterGriffinJin/Search-R1.
arxiv情報
著者 | Bowen Jin,Hansi Zeng,Zhenrui Yue,Jinsung Yoon,Sercan Arik,Dong Wang,Hamed Zamani,Jiawei Han |
発行日 | 2025-04-08 14:03:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google