Stop Summation: Min-Form Credit Assignment Is All Process Reward Model Needs for Reasoning

要約

プロセス報酬モデル(PRMS)は、挑戦的な推論タスクに関する大規模な言語モデル(LLM)のテスト時間スケーリングに効果的であることが証明されています。
ただし、PRMSの報酬のハッキングの問題は、補強材の微調整における成功したアプリケーションを制限しています。
このホワイトペーパーでは、PRM誘発報酬ハッキングの主な原因を特定します。累積ガンマが課せられた将来の報酬として価値を定義する補強学習(RL)における標準的な合計形式のクレジット割り当ては、LLMSを高い報酬でハッキングするように簡単に誘導します。
これに対処するために、純粋なものを提案します。プロセス監視された強化学習。
Pureの主要な革新は、将来の報酬の最小値として値関数を策定するMin-Formクレジット割り当てです。
この方法は、値関数範囲を制限し、利点をより合理的に分配することにより、報酬のハッキングを大幅に軽減します。
3つのベースモデルでの広範な実験を通じて、PRMベースのアプローチが最小型クレジットの割り当てを可能にするアプローチが、わずか30%のステップで検証可能な報酬ベースの方法に同等の推論パフォーマンスを達成することを示しています。
対照的に、Canonical Sum-Formクレジットの割り当ては、最初でもトレーニングを崩壊させます!
さらに、PRMベースの微調整を10%検証可能な報酬で補足すると、報酬のハッキングをさらに軽減し、実験でQWEN2.5-MATH-7Bに基づいて最高の微調整されたモデルを生成し、AMC23および53.3%の平均精度で82.5%の精度を達成します。
さらに、観察された報酬ハッキングケースを要約し、トレーニングの崩壊の原因を分析します。
コードとモデルはhttps://github.com/cjreinforce/pureで入手できます。

要約(オリジナル)

Process reward models (PRMs) have proven effective for test-time scaling of Large Language Models (LLMs) on challenging reasoning tasks. However, reward hacking issues with PRMs limit their successful application in reinforcement fine-tuning. In this paper, we identify the main cause of PRM-induced reward hacking: the canonical summation-form credit assignment in reinforcement learning (RL), which defines the value as cumulative gamma-decayed future rewards, easily induces LLMs to hack steps with high rewards. To address this, we propose PURE: Process sUpervised Reinforcement lEarning. The key innovation of PURE is a min-form credit assignment that formulates the value function as the minimum of future rewards. This method significantly alleviates reward hacking by limiting the value function range and distributing advantages more reasonably. Through extensive experiments on 3 base models, we show that PRM-based approaches enabling min-form credit assignment achieve comparable reasoning performance to verifiable reward-based methods within only 30% steps. In contrast, the canonical sum-form credit assignment collapses training even at the beginning! Additionally, when we supplement PRM-based fine-tuning with just 10% verifiable rewards, we further alleviate reward hacking and produce the best fine-tuned model based on Qwen2.5-Math-7B in our experiments, achieving 82.5% accuracy on AMC23 and 53.3% average accuracy across 5 benchmarks. Moreover, we summarize the observed reward hacking cases and analyze the causes of training collapse. Code and models are available at https://github.com/CJReinforce/PURE.

arxiv情報

著者 Jie Cheng,Ruixi Qiao,Lijun Li,Chao Guo,Junle Wang,Gang Xiong,Yisheng Lv,Fei-Yue Wang
発行日 2025-04-21 17:59:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク