RMB: Comprehensively Benchmarking Reward Models in LLM Alignment

要約

報酬モデル(RM)は、大規模言語モデル(LLM)のアライメントを導き、人間が好む行動へと導く。RMを評価することは、LLMをより良くアライメントするための鍵となる。しかし、現在のRMの評価は、評価データの分布が限られていることや、評価方法がアライメント目的と密接に関連していないことから、アライメント性能と直接対応しない可能性がある。これらの限界に対処するため、我々は、49以上の実世界シナリオをカバーし、ペアワイズ評価とBoN(Best-of-N)評価の両方を含む包括的なRMベンチマークであるRMBを提案する。本ベンチマークと下流のアライメントタスクの性能との間に正の相関があることを示す。本ベンチマークに基づき、最先端のRMについて広範な分析を行い、これまでのベンチマークでは発見できなかったRMの汎化の欠点を明らかにし、生成的RMの可能性を強調する。さらに、報酬モデルにおける未解決の問題を掘り下げ、特に報酬モデルの評価における多数決の有効性を検証し、評価基準や指示方法の影響など、生成的RMの影響要因を分析する。我々の評価コードとデータセットは、https://github.com/Zhou-Zoey/RMB-Reward-Model-Benchmark。

要約(オリジナル)

Reward models (RMs) guide the alignment of large language models (LLMs), steering them toward behaviors preferred by humans. Evaluating RMs is the key to better aligning LLMs. However, the current evaluation of RMs may not directly correspond to their alignment performance due to the limited distribution of evaluation data and evaluation methods that are not closely related to alignment objectives. To address these limitations, we propose RMB, a comprehensive RM benchmark that covers over 49 real-world scenarios and includes both pairwise and Best-of-N (BoN) evaluations to better reflect the effectiveness of RMs in guiding alignment optimization. We demonstrate a positive correlation between our benchmark and the downstream alignment task performance. Based on our benchmark, we conduct extensive analysis on the state-of-the-art RMs, revealing their generalization defects that were not discovered by previous benchmarks, and highlighting the potential of generative RMs. Furthermore, we delve into open questions in reward models, specifically examining the effectiveness of majority voting for the evaluation of reward models and analyzing the impact factors of generative RMs, including the influence of evaluation criteria and instructing methods. Our evaluation code and datasets are available at https://github.com/Zhou-Zoey/RMB-Reward-Model-Benchmark.

arxiv情報

著者 Enyu Zhou,Guodong Zheng,Binghai Wang,Zhiheng Xi,Shihan Dou,Rong Bao,Wei Shen,Limao Xiong,Jessica Fan,Yurong Mou,Rui Zheng,Tao Gui,Qi Zhang,Xuanjing Huang
発行日 2025-04-04 11:45:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク