要約
大規模な推論モデル(LRMS)は、拡張された思考チェーン(COT)を生成することにより、複雑なタスクで顕著な進歩を達成しました。
ただし、制御されていない出力の長さは、トークン、レイテンシ、または計算の推論時間予算が厳密に制約される現実世界の展開に大きな課題をもたらします。
弾力性の推論を提案します。これは、推論を独立して割り当てられた予算で2つのフェーズ(考えと解決策)に明示的に分離するスケーラブルな思考チェーンの新しいフレームワークを提案します。
テスト時に、弾性推論は、ソリューションセグメントの完全性を優先し、厳しいリソースの制約の下での信頼性を大幅に改善します。
切り捨てられた思考に堅牢なモデルを訓練するために、GRPOに統合された軽量の予算制約のロールアウト戦略を導入します。これは、思考プロセスが短くカットされ、追加のトレーニングなしで目に見えない予算の制約に効果的に一般化するときに適応的に推論するようにモデルを教えます。
数学(AIME、MATH500)およびプログラミング(LiveCodebench、CodeForces)のベンチマークに関する経験的結果は、弾性推論が厳格な予算制約の下で堅牢に機能する一方で、ベースライン方法よりも大幅に低いトレーニングコストを発生させることを示しています。
驚くべきことに、私たちのアプローチは、制約のない設定でも、より簡潔で効率的な推論を生み出します。
弾性推論は、規模の制御可能な推論の差し迫った課題に対する原則的かつ実用的な解決策を提供します。
要約(オリジナル)
Large reasoning models (LRMs) have achieved remarkable progress on complex tasks by generating extended chains of thought (CoT). However, their uncontrolled output lengths pose significant challenges for real-world deployment, where inference-time budgets on tokens, latency, or compute are strictly constrained. We propose Elastic Reasoning, a novel framework for scalable chain of thoughts that explicitly separates reasoning into two phases–thinking and solution–with independently allocated budgets. At test time, Elastic Reasoning prioritize that completeness of solution segments, significantly improving reliability under tight resource constraints. To train models that are robust to truncated thinking, we introduce a lightweight budget-constrained rollout strategy, integrated into GRPO, which teaches the model to reason adaptively when the thinking process is cut short and generalizes effectively to unseen budget constraints without additional training. Empirical results on mathematical (AIME, MATH500) and programming (LiveCodeBench, Codeforces) benchmarks demonstrate that Elastic Reasoning performs robustly under strict budget constraints, while incurring significantly lower training cost than baseline methods. Remarkably, our approach also produces more concise and efficient reasoning even in unconstrained settings. Elastic Reasoning offers a principled and practical solution to the pressing challenge of controllable reasoning at scale.
arxiv情報
著者 | Yuhui Xu,Hanze Dong,Lei Wang,Doyen Sahoo,Junnan Li,Caiming Xiong |
発行日 | 2025-05-08 15:01:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google