What Makes a Reward Model a Good Teacher? An Optimization Perspective

要約

人間のフィードバック(RLHF)からの強化学習の成功は、報酬モデルの品質に大きく依存します。
この品質は主に精度を通じて評価されますが、正確さが報酬モデルを効果的な教師にするものを完全に捉えるかどうかは不明のままです。
この質問に最適化の観点から対処します。
まず、報酬モデルがどれほど正確であるかに関係なく、報酬の差異が低い場合、RLHFの客観的な状況が平らな風景に苦しむことを証明します。
その結果、完全に正確な報酬モデルでさえ、最適化が非常に遅くなり、より高い報酬の差異を引き起こすより正確なモデルを下回ることができます。
さらに、ある言語モデルに適した報酬モデルが低報酬の差異を誘発する可能性があることを示しています。
これらの結果は、正確性のみに基づいて、またはガイドする言語モデルとは独立して報酬モデルを評価するという基本的な制限を確立します。
最大8Bパラメーターのモデルを使用した実験は、私たちの理論を裏付け、報酬の分散、精度、報酬の最大化率の相互作用を実証します。
全体として、私たちの調査結果は、精度を超えて、報酬モデルが効率的な最適化のために十分な分散を誘導する必要があることを強調しています。

要約(オリジナル)

The success of Reinforcement Learning from Human Feedback (RLHF) critically depends on the quality of the reward model. While this quality is primarily evaluated through accuracy, it remains unclear whether accuracy fully captures what makes a reward model an effective teacher. We address this question from an optimization perspective. First, we prove that regardless of how accurate a reward model is, if it induces low reward variance, then the RLHF objective suffers from a flat landscape. Consequently, even a perfectly accurate reward model can lead to extremely slow optimization, underperforming less accurate models that induce higher reward variance. We additionally show that a reward model that works well for one language model can induce low reward variance, and thus a flat objective landscape, for another. These results establish a fundamental limitation of evaluating reward models solely based on accuracy or independently of the language model they guide. Experiments using models of up to 8B parameters corroborate our theory, demonstrating the interplay between reward variance, accuracy, and reward maximization rate. Overall, our findings highlight that beyond accuracy, a reward model needs to induce sufficient variance for efficient optimization.

arxiv情報

著者 Noam Razin,Zixuan Wang,Hubert Strauss,Stanley Wei,Jason D. Lee,Sanjeev Arora
発行日 2025-03-19 17:54:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, stat.ML パーマリンク