Towards Hierarchical Multi-Step Reward Models for Enhanced Reasoning in Large Language Models

要約

最近の研究は、大規模な言語モデル(LLM)が監視された微調整または補強学習を通じて強力な推論能力を達成することを示しています。
ただし、重要なアプローチであるプロセス報酬モデル(PRM)は、報酬のハッキングに苦しんでおり、最良の中間ステップを特定する際に信頼性が低くなります。
さらに、報酬モデリングの推論プロセスに注釈を付けたコストは高く、高品質のデータの大規模なコレクションが困難になります。
これに対処するために、階層報酬モデル(HRM)と呼ばれる新しい報酬モデルアプローチを提案します。これは、細粒レベルと粗粒レベルの両方で個人と連続の推論ステップの両方を評価します。
HRMは、特に欠陥のあるステップが後で自己反省によって修正された場合、マルチステップの推論コヒーレンスの評価に優れています。
トレーニングデータを生成するコストをさらに削減するために、階層ノード圧縮(HNC)と呼ばれる軽量で効果的なデータ増強戦略を導入します。これは、2つの連続した推論ステップをツリー構造内の1つにマージします。
HNCをMCTS生成の推論軌跡に適用することにより、HRMトレーニングデータの多様性と堅牢性を高め、最小限の計算オーバーヘッドで制御ノイズを導入します。
PRM800Kデータセットの経験的結果は、HRMがHNCとともにPRMよりも安定した信頼性の高い評価を提供することを示しています。
さらに、MATH500およびGSM8Kデータセットのクロスドメイン評価は、さまざまな推論タスクにわたってHRMの強力な一般化と堅牢性を示しています。

要約(オリジナル)

Recent studies show that Large Language Models (LLMs) achieve strong reasoning capabilities through supervised fine-tuning or reinforcement learning. However, a key approach, the Process Reward Model (PRM), suffers from reward hacking, making it unreliable in identifying the best intermediate step. In addition, the cost of annotating reasoning processes for reward modeling is high, making large-scale collection of high-quality data challenging. To address this, we propose a novel reward model approach called the Hierarchical Reward Model (HRM), which evaluates both individual and consecutive reasoning steps at both fine-grained and coarse-grained levels. HRM excels at assessing multi-step reasoning coherence, especially when flawed steps are later corrected through self-reflection. To further reduce the cost of generating training data, we introduce a lightweight and effective data augmentation strategy called Hierarchical Node Compression (HNC), which merges two consecutive reasoning steps into one within the tree structure. By applying HNC to MCTS-generated reasoning trajectories, we enhance the diversity and robustness of HRM training data while introducing controlled noise with minimal computational overhead. Empirical results on the PRM800K dataset show that HRM, together with HNC, provides more stable and reliable evaluations than PRM. Furthermore, cross-domain evaluations on the MATH500 and GSM8K datasets demonstrate HRM’s strong generalization and robustness across a variety of reasoning tasks.

arxiv情報

著者 Teng Wang,Zhangyi Jiang,Zhenqi He,Shenyang Tong,Wenhan Yang,Yanan Zheng,Zeyu Li,Zifan He,Hailei Gong
発行日 2025-05-06 11:38:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク