要約
報酬モデルは、ヒューマン フィードバックからの強化学習 (RLHF) や推論スケーリング則などの手法において重要であり、言語モデルの調整をガイドし、最適な応答を選択します。
重要性にもかかわらず、既存の報酬モデル ベンチマークでは、さまざまな検出力のモデルによって生成された応答を区別するように求めてモデルを評価することがよくあります。
ただし、このアプローチでは、微妙だが重要なコンテンツの変更やスタイルの変化に関する報酬モデルを評価できず、その結果、ポリシー モデルのパフォーマンスとの相関が低くなります。
この目的を達成するために、コンテンツの微妙な違いに対する感度とスタイルのバイアスに対する耐性に基づいて報酬モデルを評価するように設計された新しいベンチマークである RM-Bench を紹介します。
広範な実験により、RM-Bench がポリシー モデルのパフォーマンスと強い相関関係があることが実証されており、言語モデルを効果的に調整するための報酬モデルを選択するための信頼できるリファレンスとなります。
RM-Bench では 40 近くの報酬モデルを評価しています。
私たちの結果では、最先端のモデルでも平均パフォーマンスはわずか 46.6% しか達成できず、スタイル バイアスの干渉に直面した場合、ランダム レベルの精度 (50%) に届かないことが明らかになりました。
これらの調査結果は、現在の報酬モデルに大きな改善の余地があることを浮き彫りにしています。
関連するコードとデータは https://github.com/THU-KEG/RM-Bench で入手できます。
要約(オリジナル)
Reward models are critical in techniques like Reinforcement Learning from Human Feedback (RLHF) and Inference Scaling Laws, where they guide language model alignment and select optimal responses. Despite their importance, existing reward model benchmarks often evaluate models by asking them to distinguish between responses generated by models of varying power. However, this approach fails to assess reward models on subtle but critical content changes and variations in style, resulting in a low correlation with policy model performance. To this end, we introduce RM-Bench, a novel benchmark designed to evaluate reward models based on their sensitivity to subtle content differences and resistance to style biases. Extensive experiments demonstrate that RM-Bench strongly correlates with policy model performance, making it a reliable reference for selecting reward models to align language models effectively. We evaluate nearly 40 reward models on RM-Bench. Our results reveal that even state-of-the-art models achieve an average performance of only 46.6%, which falls short of random-level accuracy (50%) when faced with style bias interference. These findings highlight the significant room for improvement in current reward models. Related code and data are available at https://github.com/THU-KEG/RM-Bench.
arxiv情報
| 著者 | Yantao Liu,Zijun Yao,Rui Min,Yixin Cao,Lei Hou,Juanzi Li | 
| 発行日 | 2024-10-21 16:48:26+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
