Towards Hierarchical Multi-Step Reward Models for Enhanced Reasoning in Large Language Models

要約

最近の研究は、大規模な言語モデル(LLM)が監視された微調整または補強学習を通じて強力な推論能力を達成することを示しています。
ただし、重要なアプローチであるプロセス報酬モデル(PRM)は、報酬のハッキングに苦しんでおり、最良の中間ステップを特定する際に信頼性が低くなります。
このホワイトペーパーでは、微粒子と粗粒レベルからの個人的および連続的な推論ステップの両方を評価する新しい報酬モデルアプローチ、階層報酬モデル(HRM)を提案します。
HRMは、特に以前の推論ステップが正しくない場合、推論の一貫性と自己反省の評価においてより良いパフォーマンスを発揮します。
さらに、モンテカルロツリー検索(MCTS)を介した自律生成PRMトレーニングデータの非効率性に対処するために、ツリー構造のノードマージに基づく階層ノード圧縮(HNC)と呼ばれる軽量で効果的なデータ増強戦略(HNC)を導入します。
このアプローチは、HRMのMCTの結果を無視できる計算オーバーヘッドで多様化し、ノイズを導入することによりラベルの堅牢性を高めます。
PRM800Kデータセットの経験的結果は、HRMがHNCと併せて、PRMと比較して評価において優れた安定性と信頼性を達成することを示しています。
さらに、Math500およびGSM8Kのクロスドメイン評価は、多様な推論タスク全体のHRMの優れた一般化と堅牢性を確認します。
すべての実験のコードは、https://github.com/tengwang0318/hierarchial_reward_modelでリリースされます。

要約(オリジナル)

Recent studies show that Large Language Models (LLMs) achieve strong reasoning capabilities through supervised fine-tuning or reinforcement learning. However, a key approach, the Process Reward Model (PRM), suffers from reward hacking, making it unreliable in identifying the best intermediate steps. In this paper, we propose a novel reward model approach, Hierarchical Reward Model (HRM), which evaluates both individual and consecutive reasoning steps from fine-grained and coarse-grained level. HRM performs better in assessing reasoning coherence and self-reflection, particularly when the previous reasoning step is incorrect. Furthermore, to address the inefficiency of autonomous generating PRM training data via Monte Carlo Tree Search (MCTS), we introduce a lightweight and effective data augmentation strategy called Hierarchical Node Compression (HNC) based on node merging (combining two consecutive reasoning steps into one step) in the tree structure. This approach diversifies MCTS results for HRM with negligible computational overhead, enhancing label robustness by introducing noise. Empirical results on the PRM800K dataset demonstrate that HRM, in conjunction with HNC, achieves superior stability and reliability in evaluation compared to PRM. Furthermore, cross-domain evaluations on MATH500 and GSM8K confirm HRM’s superior generalization and robustness across diverse reasoning tasks. The code for all experiments will be released at https: //github.com/tengwang0318/hierarchial_reward_model.

arxiv情報

著者 Teng Wang,Zhangyi Jiang,Zhenqi He,Wenhan Yang,Yanan Zheng,Zeyu Li,Zifan He,Shenyang Tong,Hailei Gong
発行日 2025-03-19 15:43:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク