Agent RL Scaling Law: Agent RL with Spontaneous Code Execution for Mathematical Problem Solving

要約

大規模な言語モデル(LLM)は、多くの場合、正確で検証可能な計算を必要とする数学的推論タスクに苦しんでいます。
結果ベースの報酬からの強化学習(RL)はテキストベースの推論を強化しますが、エージェントがコード実行などの外部ツールを活用することを自律的に学習する方法を理解することは重要です。
ツール統合推論の結果に基づいた報酬、Zerotir、トレーニングベースLLMを、監視されたツール使用例なしに数学的問題のPythonコードを自発的に生成および実行するためのRLを調査します。
私たちの中心的な貢献は、RLトレーニングが進むにつれて、主要なメトリックスケールが予想通りにスケールすることを示しています。
具体的には、トレーニングステップの増加が自発コード実行頻度、平均応答長、および最終的なタスク精度の増加につながるという強い正の相関を観察します。
これは、トレーニングに投資された計算努力と、効果的でツール熟成された推論戦略の出現との間の定量化可能な関係を示唆しています。
分離されたコード実行環境を備えた堅牢なフレームワークを実装し、標準のRLアルゴリズムとフレームワークを介した調査結果を検証します。
実験では、Zerotirが挑戦的な数学ベンチマークで非ツールゼロールベースラインを大幅に上回っていることが示されています。
私たちの調査結果は、自律的なツールの使用がどのように獲得され、エージェントRL内のスケールの基本的な理解を提供し、将来の研究のために再現可能なベンチマークを提供します。
コードは\ href {https://github.com/anonymize-author/agentrl} {https://github.com/anonymize-author/agentrl}でリリースされます。

要約(オリジナル)

Large Language Models (LLMs) often struggle with mathematical reasoning tasks requiring precise, verifiable computation. While Reinforcement Learning (RL) from outcome-based rewards enhances text-based reasoning, understanding how agents autonomously learn to leverage external tools like code execution remains crucial. We investigate RL from outcome-based rewards for Tool-Integrated Reasoning, ZeroTIR, training base LLMs to spontaneously generate and execute Python code for mathematical problems without supervised tool-use examples. Our central contribution is we demonstrate that as RL training progresses, key metrics scale predictably. Specifically, we observe strong positive correlations where increased training steps lead to increases in the spontaneous code execution frequency, the average response length, and, critically, the final task accuracy. This suggests a quantifiable relationship between computational effort invested in training and the emergence of effective, tool-augmented reasoning strategies. We implement a robust framework featuring a decoupled code execution environment and validate our findings across standard RL algorithms and frameworks. Experiments show ZeroTIR significantly surpasses non-tool ZeroRL baselines on challenging math benchmarks. Our findings provide a foundational understanding of how autonomous tool use is acquired and scales within Agent RL, offering a reproducible benchmark for future studies. Code is released at \href{https://github.com/Anonymize-Author/AgentRL}{https://github.com/Anonymize-Author/AgentRL}.

arxiv情報

著者 Xinji Mai,Haotian Xu,Xing W,Weinong Wang,Yingying Zhang,Wenqiang Zhang
発行日 2025-05-12 17:23:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク