要約
人間の嗜好データに基づいてトレーニングされた報酬モデルは、人間のフィードバックによる強化学習 (RLHF) フレームワーク内で大規模言語モデル (LLM) を人間の意図に合わせるのに効果的であることが証明されています。
ただし、目に見えないプロンプトと応答に対する現在の報酬モデルの一般化機能は限られています。
この制限により、報酬の過剰な最適化として知られる予期せぬ現象が発生する可能性があり、報酬の過剰な最適化により実際のパフォーマンスが低下します。
これまでの研究では、ポリシーの最適化を制約することが提唱されてきましたが、私たちの研究では、隠れ状態を正則化することで、分布シフトに対する報酬モデルの一般化能力を強化する新しいアプローチを提案しています。
具体的には、基本モデルの言語モデル ヘッドを保持し、隠れ状態のテキスト生成機能を維持するために一連のテキスト生成損失を組み込み、同時に同じ隠れ状態の背後にある報酬ヘッドを学習します。
私たちの実験結果は、導入された正則化手法がさまざまな分布外 (OOD) タスクにわたって学習された報酬モデルの精度を著しく向上させ、RLHF における過剰最適化の問題を効果的に軽減し、より信頼性が高く堅牢な優先学習パラダイムを提供することを示しています。
。
要約(オリジナル)
Reward models trained on human preference data have been proven to be effective for aligning Large Language Models (LLMs) with human intent within the reinforcement learning from human feedback (RLHF) framework. However, the generalization capabilities of current reward models to unseen prompts and responses are limited. This limitation can lead to an unexpected phenomenon known as reward over-optimization, where excessive optimization of rewards results in a decline in actual performance. While previous research has advocated for constraining policy optimization, our study proposes a novel approach to enhance the reward model’s generalization ability against distribution shifts by regularizing the hidden states. Specifically, we retain the base model’s language model head and incorporate a suite of text-generation losses to preserve the hidden states’ text generation capabilities, while concurrently learning a reward head behind the same hidden states. Our experimental results demonstrate that the introduced regularization technique markedly improves the accuracy of learned reward models across a variety of out-of-distribution (OOD) tasks and effectively alleviate the over-optimization issue in RLHF, offering a more reliable and robust preference learning paradigm.
arxiv情報
著者 | Rui Yang,Ruomeng Ding,Yong Lin,Huan Zhang,Tong Zhang |
発行日 | 2024-06-14 17:49:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google