Critique-out-Loud Reward Models

要約

従来、ヒューマン フィードバックからの強化学習 (RLHF) に使用される報酬モデルは、基礎となる大規模言語モデル (LLM) の生成機能を利用せずに、嗜好スコアを直接予測するようにトレーニングされてきました。
これにより、報酬モデルは応答の品質について暗黙的に推論する必要があるため、報酬モデルの機能が制限されます。つまり、嗜好モデリングはモデルを介した単一の前方パスで実行する必要があります。
報酬モデルが応答の質について明示的に推論できるようにするために、Critique-out-Loud (CLoud) 報酬モデルを導入します。
CLoud 報酬モデルは、最初にアシスタントの応答に対する自然言語による批評を生成することによって動作し、次にそれを使用して応答の品質に対するスカラー報酬を予測します。
Llama-3-8B および 70B ベース モデルの両方に対する CLoud 報酬モデルの成功を実証します。古典的な報酬モデルと比較して、CLoud 報酬モデルは、RewardBench でのペアごとの嗜好分類の精度を、8B および 70B ベース モデルでそれぞれ 4.65 および 5.84 パーセント ポイント向上させました。
さらに、CLoud 報酬モデルを Best-of-N のスコアリング モデルとして使用すると、ArenaHard での勝率のパレート改善につながります。
最後に、報酬予測のために自己無撞着デコーディングを実行することで、CLoud 報酬モデルの動的推論計算機能を活用する方法を検討します。

要約(オリジナル)

Traditionally, reward models used for reinforcement learning from human feedback (RLHF) are trained to directly predict preference scores without leveraging the generation capabilities of the underlying large language model (LLM). This limits the capabilities of reward models as they must reason implicitly about the quality of a response, i.e., preference modeling must be performed in a single forward pass through the model. To enable reward models to reason explicitly about the quality of a response, we introduce Critique-out-Loud (CLoud) reward models. CLoud reward models operate by first generating a natural language critique of the assistant’s response that is then used to predict a scalar reward for the quality of the response. We demonstrate the success of CLoud reward models for both Llama-3-8B and 70B base models: compared to classic reward models CLoud reward models improve pairwise preference classification accuracy on RewardBench by 4.65 and 5.84 percentage points for the 8B and 70B base models respectively. Furthermore, CLoud reward models lead to a Pareto improvement for win rate on ArenaHard when used as the scoring model for Best-of-N. Finally, we explore how to exploit the dynamic inference compute capabilities of CLoud reward models by performing self-consistency decoding for reward prediction.

arxiv情報

著者 Zachary Ankner,Mansheej Paul,Brandon Cui,Jonathan D. Chang,Prithviraj Ammanabrolu
発行日 2024-08-21 17:24:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク