要約
既存の大規模な推論モデル(LRMS)は、大規模な言語モデルの複雑な推論能力を強化する補強学習(RL)の可能性を示しています〜(LLMS)。
数学やコーディングなどの挑戦的なタスクで顕著なパフォーマンスを達成していますが、多くの場合、問題を解決するために内部の知識に依存しています。これは、時間に敏感または知識集約的な質問に不十分な場合があり、不正確さや幻覚につながります。
これに対処するために、LLMSの検索機能を強化するために設計された新しい2段階の結果ベースのRLアプローチである\ textBf {r1-searcher}を提案します。
この方法により、LLMSは外部検索システムを自律的に呼び出して、推論プロセス中に追加の知識にアクセスできます。
私たちのフレームワークは、コールドスタートのためにプロセスの報酬や蒸留を必要とせずに、RLのみに依存しています。
%ドメイン外データセットに効果的に一般化し、ベースモデルと指示モデルの両方をサポートします。
我々の実験は、閉鎖型GPT-4O-MINIと比較しても、私たちの方法が以前の強力なRAGメソッドを大幅に上回ることを示しています。
要約(オリジナル)
Existing Large Reasoning Models (LRMs) have shown the potential of reinforcement learning (RL) to enhance the complex reasoning capabilities of Large Language Models~(LLMs). While they achieve remarkable performance on challenging tasks such as mathematics and coding, they often rely on their internal knowledge to solve problems, which can be inadequate for time-sensitive or knowledge-intensive questions, leading to inaccuracies and hallucinations. To address this, we propose \textbf{R1-Searcher}, a novel two-stage outcome-based RL approach designed to enhance the search capabilities of LLMs. This method allows LLMs to autonomously invoke external search systems to access additional knowledge during the reasoning process. Our framework relies exclusively on RL, without requiring process rewards or distillation for a cold start. % effectively generalizing to out-of-domain datasets and supporting both Base and Instruct models. Our experiments demonstrate that our method significantly outperforms previous strong RAG methods, even when compared to the closed-source GPT-4o-mini.
arxiv情報
著者 | Huatong Song,Jinhao Jiang,Yingqian Min,Jie Chen,Zhipeng Chen,Wayne Xin Zhao,Lei Fang,Ji-Rong Wen |
発行日 | 2025-03-07 17:14:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google