SelfBudgeter: Adaptive Token Allocation for Efficient LLM Reasoning

要約

最近、大きな推論モデルは、さまざまなタスクで例外的なパフォーマンスを示しています。
ただし、推論モデルは、些細なクエリと複雑なクエリの両方を非効率的に過度に処理し、リソースの無駄と延長されたユーザーの遅延につながります。
この課題に対処するために、私たちはセルフバッジェール – 効率的な推論のための自己適応的制御可能な推論戦略を提案します。
私たちのアプローチでは、デュアルフェーズトレーニングパラダイムを採用しています。まず、モデルはクエリの難易度に基づいて推論コストを事前に推定することを学びます。
次に、補強学習のために予算誘導GPROを導入します。これは、出力の長さを短縮しながら精度を効果的に維持します。
セルフバジェットを使用すると、ユーザーは生成時間を予測し、プロセスの継続または中断について情報に基づいた決定を下すことができます。
さらに、当社の方法により、事前に埋めるトークン予算を介して推論長の直接操作が可能になります。
実験結果は、セルフバッジェールが問題の複雑さに応じて予算を合理的に割り当てることができることを示しており、ほぼ未模様の精度を維持しながら、数学ベンチマークで最大74.47%の応答長圧縮を達成します。

要約(オリジナル)

Recently, large reasoning models demonstrate exceptional performance on various tasks. However, reasoning models inefficiently over-process both trivial and complex queries, leading to resource waste and prolonged user latency. To address this challenge, we propose SelfBudgeter – a self-adaptive controllable reasoning strategy for efficient reasoning. Our approach adopts a dual-phase training paradigm: first, the model learns to pre-estimate the reasoning cost based on the difficulty of the query. Then, we introduce budget-guided GPRO for reinforcement learning, which effectively maintains accuracy while reducing output length. SelfBudgeter allows users to anticipate generation time and make informed decisions about continuing or interrupting the process. Furthermore, our method enables direct manipulation of reasoning length via pre-filling token budget. Experimental results demonstrate that SelfBudgeter can rationally allocate budgets according to problem complexity, achieving up to 74.47% response length compression on the MATH benchmark while maintaining nearly undiminished accuracy.

arxiv情報

著者 Zheng Li,Qingxiu Dong,Jingyuan Ma,Di Zhang,Zhifang Sui
発行日 2025-05-16 14:08:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク