Evaluating Robustness of Reward Models for Mathematical Reasoning

要約

報酬モデルは、ヒューマン フィードバック (RLHF) システムからの強化学習において重要であり、モデルの動作を人間の好みに合わせます。
特に数学の分野では、推論能力を向上させるためのポリシーを調整するために報酬モデルを使用する研究が数多く行われています。
最近、報酬モデルの重要性が強調されているため、その行動を理解するために RewardBench が提案されています。
ただし、RewardBench の数学サブセットは、選択された補完と拒否された補完の間で異なる表現を持ち、単一の比較に依存しているため、孤立したケースのみが表示されるため、信頼性の低い結果につながる可能性があることがわかりました。
したがって、報酬モデルの堅牢性を正確に示すことができず、パフォーマンスの誤解につながり、報酬のハッキングにつながる可能性があります。
この研究では、報酬モデルの信頼性の高い評価のための新しい設計を導入し、これを検証するために、数的推論タスクにおける報酬モデルの堅牢性を効果的に表すベンチマークである RewardMATH を構築します。
既存のベンチマークではほとんど相関が見られないのに対し、RewardMATH のスコアは最適化されたポリシーの結果と強い相関があり、報酬の過剰最適化を効果的に推定できることを実証します。
この結果は、評価の信頼性を向上させる私たちの設計の可能性を強調し、報酬モデルの堅牢性を表しています。
私たちはコードとデータを公開します。

要約(オリジナル)

Reward models are key in reinforcement learning from human feedback (RLHF) systems, aligning the model behavior with human preferences. Particularly in the math domain, there have been plenty of studies using reward models to align policies for improving reasoning capabilities. Recently, as the importance of reward models has been emphasized, RewardBench is proposed to understand their behavior. However, we figure out that the math subset of RewardBench has different representations between chosen and rejected completions, and relies on a single comparison, which may lead to unreliable results as it only see an isolated case. Therefore, it fails to accurately present the robustness of reward models, leading to a misunderstanding of its performance and potentially resulting in reward hacking. In this work, we introduce a new design for reliable evaluation of reward models, and to validate this, we construct RewardMATH, a benchmark that effectively represents the robustness of reward models in mathematical reasoning tasks. We demonstrate that the scores on RewardMATH strongly correlate with the results of optimized policy and effectively estimate reward overoptimization, whereas the existing benchmark shows almost no correlation. The results underscore the potential of our design to enhance the reliability of evaluation, and represent the robustness of reward model. We make our code and data publicly available.

arxiv情報

著者 Sunghwan Kim,Dongjin Kang,Taeyoon Kwon,Hyungjoo Chae,Jungsoo Won,Dongha Lee,Jinyoung Yeo
発行日 2024-10-02 16:39:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク