RewardBench: Evaluating Reward Models for Language Modeling

要約

報酬モデル (RM) は、事前学習済みモデルを人間の好みに合わせるという RLHF の成功の核心ですが、これらの報酬モデルの評価に焦点を当てた研究は比較的少ないです。
報酬モデルを評価すると、言語モデルの調整に使用される不透明なテクノロジーと、その中にどのような値が埋め込まれているかを理解する機会が得られます。
現在まで、機能、トレーニング方法、またはオープンソースの報酬モデルの記述子はほとんど存在しません。
このペーパーでは、報酬モデルの科学的理解を強化するために、評価用のベンチマーク データセットおよびコードベースである RewardBench を紹介します。
RewardBench データセットは、チャット、推論、安全性にわたるプロンプト、勝ち、負けのトリオのコレクションであり、困難で構造化された分布外のクエリに対して報酬モデルがどのように実行されるかをベンチマークします。
私たちは、ある回答が別の回答よりも優先されるべきである微妙だが検証可能な理由 (例: バグ、誤った事実) を持つ RM 用の特定の比較データセットを作成しました。
RewardBench リーダーボードでは、分類子の直接 MLE トレーニングや Direct Preference Optimization (DPO) の暗黙的報酬モデリングなど、さまざまな方法でトレーニングされた報酬モデルと、さまざまなデータセットを評価します。
我々は、RLHFプロセスのより深い理解に向けて、拒否の傾向、推論の限界、さまざまな報酬モデルの欠点に基づく指導に関する多くの発見を提示します。

要約(オリジナル)

Reward models (RMs) are at the crux of successful RLHF to align pretrained models to human preferences, yet there has been relatively little study that focuses on evaluation of those reward models. Evaluating reward models presents an opportunity to understand the opaque technologies used for alignment of language models and which values are embedded in them. To date, very few descriptors of capabilities, training methods, or open-source reward models exist. In this paper, we present RewardBench, a benchmark dataset and code-base for evaluation, to enhance scientific understanding of reward models. The RewardBench dataset is a collection of prompt-win-lose trios spanning chat, reasoning, and safety, to benchmark how reward models perform on challenging, structured and out-of-distribution queries. We created specific comparison datasets for RMs that have subtle, but verifiable reasons (e.g. bugs, incorrect facts) why one answer should be preferred to another. On the RewardBench leaderboard, we evaluate reward models trained with a variety of methods, such as the direct MLE training of classifiers and the implicit reward modeling of Direct Preference Optimization (DPO), and on a spectrum of datasets. We present many findings on propensity for refusals, reasoning limitations, and instruction following shortcomings of various reward models towards a better understanding of the RLHF process.

arxiv情報

著者 Nathan Lambert,Valentina Pyatkin,Jacob Morrison,LJ Miranda,Bill Yuchen Lin,Khyathi Chandu,Nouha Dziri,Sachin Kumar,Tom Zick,Yejin Choi,Noah A. Smith,Hannaneh Hajishirzi
発行日 2024-03-20 17:49:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク