要約
大規模な言語モデル(LLM)の効果的な推論とテキスト生成には、外部の知識と最新情報を効率的に取得することが不可欠です。
検索エンジンがツールとして扱われる複雑なマルチターン検索の柔軟性を欠くツールとして扱われる、または大規模な監視されたデータを必要とするツールとしてのツール使用トレーニングアプローチ。
LLMは検索エンジンと最適に相互作用する方法を学習しないため、検索エンジンを使用するための推論中に推論機能を備えた高度なLLMSをプロンプト化することは最適ではありません。
このホワイトペーパーでは、LLMがREANDECTION LEANINE(RL)のみを通じて学習するDeepSeek-R1モデルの拡張であるSearch-R1を紹介します。
Search-R1は、マルチターン検索インタラクションでLLMロールアウトを最適化し、安定したRLトレーニングと単純な結果ベースの報酬機能のために検索されたトークンマスキングを活用します。
7つの質問回答データセットでの実験では、Search-R1がSOTAベースラインで26%(QWEN2.5-7B)、21%(QWEN2.5-3B)、および10%(LLAMA3.2-3B)のパフォーマンスを改善することが示されています。
このペーパーでは、検索された推論におけるRL最適化方法、LLMの選択、および応答長ダイナミクスに関する経験的洞察をさらに提供します。
コードとモデルのチェックポイントは、https://github.com/petergriffinjin/search-r1で入手できます。
要約(オリジナル)
Efficiently acquiring external knowledge and up-to-date information is essential for effective reasoning and text generation in large language models (LLMs). Retrieval augmentation and tool-use training approaches where a search engine is treated as a tool lack complex multi-turn retrieval flexibility or require large-scale supervised data. Prompting advanced LLMs with reasoning capabilities during inference to use search engines is not optimal, since the LLM does not learn how to optimally interact with the search engine. This paper introduces Search-R1, an extension of the DeepSeek-R1 model where the LLM learns — solely through reinforcement learning (RL) — to autonomously generate (multiple) search queries during step-by-step reasoning with real-time retrieval. Search-R1 optimizes LLM rollouts with multi-turn search interactions, leveraging retrieved token masking for stable RL training and a simple outcome-based reward function. Experiments on seven question-answering datasets show that Search-R1 improves performance by 26% (Qwen2.5-7B), 21% (Qwen2.5-3B), and 10% (LLaMA3.2-3B) over SOTA baselines. This paper further provides empirical insights into RL optimization methods, LLM choices, and response length dynamics in retrieval-augmented reasoning. The code and model checkpoints are available at https://github.com/PeterGriffinJin/Search-R1.
arxiv情報
著者 | Bowen Jin,Hansi Zeng,Zhenrui Yue,Dong Wang,Hamed Zamani,Jiawei Han |
発行日 | 2025-03-12 16:26:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google