要約
人間のフィードバックからの強化学習 (RLHF) は、大規模言語モデル (LLM) を人間の好みに合わせるための主要な方法として浮上しています。
RLHF プロセスは通常、人間の嗜好データを使用して報酬モデル (RM) をトレーニングすることから始まります。
従来の RM は、同じユーザーのリクエストに対するペアごとの応答についてトレーニングされ、人間がどちらの応答を好むかを示す相対評価が行われます。
訓練された RM は人間の好みの代理として機能します。
ただし、RM のブラックボックスの性質により、人間は RM が応答が良いか悪いと判断する理由を直感的に理解できないため、RM の出力には解釈可能性がありません。
RM は人間の好みの代理として機能するため、RM の内部意思決定プロセスが人間の好みと一貫していることを確認し、LLM との調整における報酬のハッキングを防ぐために、人間が解釈できる必要があると私たちは考えています。
解釈可能な優先度を備えた RM を構築するために、我々は 2 段階のアプローチを提案します。 i) 多次元絶対評価データを使用して絶対評価多目的報酬モデル (ArmoRM) をトレーニングします。各次元は人間が解釈可能な目標 (例:
、正直さ、冗長さ、安全性)。
ii) コンテキストに基づいて最適な報酬目標を自動的に選択するゲーティング ネットワークを備えた専門家混合 (MoE) 戦略を採用します。
私たちは、Llama-3 8B と ArmoRM 上の浅い MLP で構成されるゲーティング ネットワークを使用して ArmoRM を効率的にトレーニングしました。
当社のトレーニング済みモデル ArmoRM-Llama3-8B は、言語モデリング用の RM を評価するベンチマークである RewardBench で最先端のパフォーマンスを獲得しています。
特に、私たちのモデルのパフォーマンスは、GPT-4 ジャッジによる LLM-as-a-judge メソッドをわずかに上回り、はるかに大きな Nemotron-4 340B 報酬モデルのパフォーマンスに近づいています。
要約(オリジナル)
Reinforcement learning from human feedback (RLHF) has emerged as the primary method for aligning large language models (LLMs) with human preferences. The RLHF process typically starts by training a reward model (RM) using human preference data. Conventional RMs are trained on pairwise responses to the same user request, with relative ratings indicating which response humans prefer. The trained RM serves as a proxy for human preferences. However, due to the black-box nature of RMs, their outputs lack interpretability, as humans cannot intuitively understand why an RM thinks a response is good or not. As RMs act as human preference proxies, we believe they should be human-interpretable to ensure that their internal decision processes are consistent with human preferences and to prevent reward hacking in LLM alignment. To build RMs with interpretable preferences, we propose a two-stage approach: i) train an Absolute-Rating Multi-Objective Reward Model (ArmoRM) with multi-dimensional absolute-rating data, each dimension corresponding to a human-interpretable objective (e.g., honesty, verbosity, safety); ii) employ a Mixture-of-Experts (MoE) strategy with a gating network that automatically selects the most suitable reward objectives based on the context. We efficiently trained an ArmoRM with Llama-3 8B and a gating network consisting of a shallow MLP on top of the ArmoRM. Our trained model, ArmoRM-Llama3-8B, obtains state-of-the-art performance on RewardBench, a benchmark evaluating RMs for language modeling. Notably, the performance of our model surpasses the LLM-as-a-judge method with GPT-4 judges by a margin, and approaches the performance of the much larger Nemotron-4 340B reward model.
arxiv情報
| 著者 | Haoxiang Wang,Wei Xiong,Tengyang Xie,Han Zhao,Tong Zhang | 
| 発行日 | 2024-06-18 17:58:28+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
