要約
大きな推論モデル(LRMS)は、推論時により多くのトークンを生成することにより、挑戦的な推論タスクでより高いパフォーマンスを実現しますが、この冗長性はしばしば簡単な問題について計算を無駄にします。
短いトレースでの監視された微調整、ユーザー制御予算、または均一なペナルティを備えたRLを含む既存のソリューションには、データキュレーション、手動構成、またはすべての問題を難易度に関係なく同様に扱う必要があります。
Adaptive Length Penalty(ALP)を導入します。これは、強化学習目標の合わせた生成長に合わせて解決速度を導入します。
トレーニング中、ALPはそれぞれのプロンプトのオンラインを複数のロールアウトを介して監視し、そのレートと反比例する大きさのスケールを追加する差別的なペナルティを追加します。
ALPを備えたポストトレーニングDeepScaler-1.5Bは、パフォーマンスを大幅に低下させることなく、平均トークンの使用量を50 \%削減します。
固定予算と均一なペナルティベースラインと比較して、ALPは、簡単なプロンプトで計算を削減し、保存されたトークンを困難なトークンに再割り当てすることにより、予算をよりインテリジェントに再配置し、より高いコストで最も難しい問題でより高い精度を提供します。
要約(オリジナル)
Large reasoning models (LRMs) achieve higher performance on challenging reasoning tasks by generating more tokens at inference time, but this verbosity often wastes computation on easy problems. Existing solutions, including supervised finetuning on shorter traces, user-controlled budgets, or RL with uniform penalties, either require data curation, manual configuration, or treat all problems alike regardless of difficulty. We introduce Adaptive Length Penalty (ALP), a reinforcement learning objective tailoring generation length to per-prompt solve rate. During training, ALP monitors each prompt’s online solve rate through multiple rollouts and adds a differentiable penalty whose magnitude scales inversely with that rate, so confident (easy) prompts incur a high cost for extra tokens while hard prompts remain unhindered. Posttraining DeepScaleR-1.5B with ALP cuts average token usage by 50\% without significantly dropping performance. Relative to fixed-budget and uniform penalty baselines, ALP redistributes its reduced budget more intelligently by cutting compute on easy prompts and reallocating saved tokens to difficult ones, delivering higher accuracy on the hardest problems with higher cost.
arxiv情報
著者 | Violet Xiang,Chase Blagden,Rafael Rafailov,Nathan Lile,Sang Truong,Chelsea Finn,Nick Haber |
発行日 | 2025-06-06 02:38:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google