要約
強化学習(RL)で訓練された推論モデル(例えば、Deepseek R1)はテキストの推論に優れていますが、コード通訳者(CI)などの計算ツールが明確な有点を示すような幾何学的推論、簡潔な計算、または複雑な方程式解決領域など、構造化された問題解決を必要とするシナリオで苦労しています。
このギャップを埋めるために、2つの主要な機能を含むツール統合学習で長期の推論を強化するRetoolを提案します。(1)自然言語の推論プロセス内でのリアルタイムコード実行の動的インターリーブ、および(2)マルチターンリアルタイムコード実行を使用したポリシーロールアウトを可能にする自動RLパラダイムは、フィードバックに基づいてモデルを指導します。
Retoolは、合成コールドスタートデータ生成から始まる体系的なトレーニングフレームワークを採用して、微調整ベースモデルのコードを支持した長型の推論トレースを生成します。
その後のRLトレーニングは、モデルのツール使用戦略を繰り返し改善するための報酬としてタスクの結果を活用し、人間の事前に最適なツールの呼び出しパターンの自律的な発見を可能にします。
挑戦的な数学オリンピアドベンチマークAIMEの実験は、Retoolの優位性を示しています。32Bモデルは、400トレーニングステップで67%の精度を達成し、テキストベースのRLベースライン(40%の精度、1080ステップ)を効率とパフォーマンスに及ぼします。
驚くべきことに、Retool-32Bは拡張設定で72.5%の精度を達成し、OpenaiのO1-Previewを27.9%上回ります。
さらなる分析により、コードの自己修正、モデルが自律的に適応ツールの使用をマスターする「aha瞬間」を通知するなどの緊急の動作が明らかになります。
これらの調査結果は、複雑な数学的推論を進めるための結果主導のツール統合の約束を強調し、ハイブリッドニューロシンボリックシステムに関する新しい洞察を提供します。
要約(オリジナル)
While reasoning models (e.g., DeepSeek R1) trained with reinforcement learning (RL), excel in textual reasoning, they struggle in scenarios requiring structured problem-solving, such as geometric reasoning, concise computation, or complex equation solving-areas where computational tools like code interpreters (CI) demonstrate distinct advantages. To bridge this gap, we propose ReTool, which enhances long-form reasoning with tool-integrated learning, including two key features: (1) dynamic interleaving of real-time code execution within natural language reasoning processes, and (2) an automated RL paradigm that allows policy rollouts with multi-turn real-time code execution and teaches the model in learning when and how to invoke tools based on outcome feedback. ReTool employs a systematic training framework, beginning with synthetic cold-start data generation to produce code-augmented long-form reasoning traces for fine-tuning base models. Subsequent RL training leverages task outcomes as rewards to iteratively refine the model’s tool use strategy, enabling autonomous discovery of optimal tool invocation patterns without human priors. Experiments on the challenging MATH Olympiad benchmark AIME demonstrate ReTool’s superiority: Our 32B model achieves 67% accuracy with 400 training steps, outperforming text-based RL baseline (40% accuracy, 1080 steps) in efficiency and performance. Remarkably, ReTool-32B attains 72.5% accuracy in extended settings, surpassing OpenAI’s o1-preview by 27.9%. Further analysis reveals emergent behaviors such as code self-correction, signaling an ”aha moment” in which the model autonomously masters adaptive tool use. These findings highlight the promise of outcome-driven tool integration for advancing complex mathematical reasoning and offer new insights into hybrid neuro-symbolic systems.
arxiv情報
著者 | Jiazhan Feng,Shijue Huang,Xingwei Qu,Ge Zhang,Yujia Qin,Baoquan Zhong,Chengquan Jiang,Jinxin Chi,Wanjun Zhong |
発行日 | 2025-04-17 16:46:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google