HAPO: Training Language Models to Reason Concisely via History-Aware Policy Optimization

要約

テスト時に応答の長さをスケーリングすることは、大規模な言語モデル(LLM)の推論能力とパフォーマンスを著しく改善することが示されていますが、多くの場合、冗長出力をもたらし、推論コストを増加させます。
通常、普遍的な予算の制約またはクエリレベルの長さの最適化を使用して、効率的なテスト時間スケーリングのための以前のアプローチは、トレーニング中に同じ問題を伴う以前の出会いから履歴情報を活用しないでください。
私たちは、これにより、時間の経過とともにソリューションをより簡潔にする能力を制限すると仮定します。
これに対処するために、各問題について履歴状態(以前に生成された正しい応答の最小長)を追跡する履歴認識ポリシー最適化(HAPO)を提示します。
HAPOは、この歴史状態に基づいた新しい長さの報酬機能を採用して、以前に発見されたものよりも簡潔な正しいソリューションの発見を奨励します。
重要なことに、この報酬構造は、より効率的なソリューションに向けて探査を促進することを目的として、より短い誤った応答を過度に罰することを回避します。
この長さの報酬と正確な報酬を組み合わせることにより、HAPOは共同で正確性と効率を最適化します。
HAPOを使用して、DeepSeek-R1-Distill-Qwen-1.5B、Deepscaler-1.5B-Preview、およびQWen-2.5-1.5B-Instructをトレーニングし、さまざまな難易度レベルにまたがるいくつかの数学ベンチマークでHAPOを評価します。
実験結果は、HAPOがLLMSの簡潔な推論能力を効果的に誘導し、33〜59%の長さの減少を生成し、精度はわずか2〜5%であることを示しています。

要約(オリジナル)

While scaling the length of responses at test-time has been shown to markedly improve the reasoning abilities and performance of large language models (LLMs), it often results in verbose outputs and increases inference cost. Prior approaches for efficient test-time scaling, typically using universal budget constraints or query-level length optimization, do not leverage historical information from previous encounters with the same problem during training. We hypothesize that this limits their ability to progressively make solutions more concise over time. To address this, we present History-Aware Policy Optimization (HAPO), which keeps track of a history state (e.g., the minimum length over previously generated correct responses) for each problem. HAPO employs a novel length reward function based on this history state to incentivize the discovery of correct solutions that are more concise than those previously found. Crucially, this reward structure avoids overly penalizing shorter incorrect responses with the goal of facilitating exploration towards more efficient solutions. By combining this length reward with a correctness reward, HAPO jointly optimizes for correctness and efficiency. We use HAPO to train DeepSeek-R1-Distill-Qwen-1.5B, DeepScaleR-1.5B-Preview, and Qwen-2.5-1.5B-Instruct, and evaluate HAPO on several math benchmarks that span various difficulty levels. Experiment results demonstrate that HAPO effectively induces LLMs’ concise reasoning abilities, producing length reductions of 33-59% with accuracy drops of only 2-5%.

arxiv情報

著者 Chengyu Huang,Zhengxin Zhang,Claire Cardie
発行日 2025-05-16 13:21:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク