T1: Advancing Language Model Reasoning through Reinforcement Learning and Inference Scaling

要約

大規模な言語モデル(LLMS)は、複雑な推論タスクにおいて顕著な能力を示しています。
ただし、既存のアプローチは主に模倣学習に依存し、効果的なテスト時間スケーリングを達成するために苦労しています。
強化学習(RL)は、自己普及を可能にすることの可能性を保持していますが、最近の試みは複雑な推論にわずかな改善をもたらします。
この論文では、探索を奨励し、推論スケーリングを理解することにより、RLをスケーリングするためにT1を提示します。
最初に、試行錯誤と自己検証を統合する合成されたチェーンデータデータを使用してLLMを初期化します。
RLトレーニングを拡大するために、オーバーサンプリングを通じてサンプリングの多様性の増加を促進します。
私たちは、そのベースとしてのオープンLLMを備えたT1が推論のスケーリング動作を示し、挑戦的な数学の推論ベンチマークで優れたパフォーマンスを達成することを実証します。
さらに重要なことは、推論スケーリングを調べるための簡単な戦略を提示します。これにより、推論予算が増加すると、追加の検証なしでT1のパフォーマンスが向上します。

要約(オリジナル)

Large language models (LLMs) have demonstrated remarkable capabilities in complex reasoning tasks. However, existing approaches mainly rely on imitation learning and struggle to achieve effective test-time scaling. While reinforcement learning (RL) holds promise for enabling self-exploration, recent attempts yield modest improvements in complex reasoning. In this paper, we present T1 to scale RL by encouraging exploration and understand inference scaling. We first initialize the LLM using synthesized chain-of-thought data that integrates trial-and-error and self-verification. To scale RL training, we promote increased sampling diversity through oversampling. We demonstrate that T1 with open LLMs as its base exhibits inference scaling behavior and achieves superior performance on challenging math reasoning benchmarks. More importantly, we present a simple strategy to examine inference scaling, where increased inference budgets directly lead to T1’s better performance without any additional verification.

arxiv情報

著者 Zhenyu Hou,Xin Lv,Rui Lu,Jiajie Zhang,Yujiang Li,Zijun Yao,Juanzi Li,Jie Tang,Yuxiao Dong
発行日 2025-06-13 16:15:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク