要約
人間のフィードバックからの強化学習 (RLHF) は、大規模言語モデル (LLM) を人間の好みに合わせるために使用される主流のパラダイムです。
しかし、既存の RLHF は、正確で有益な報酬モデルに大きく依存しており、脆弱であり、さまざまなソースからのノイズに敏感です。
人間によるラベル付けエラーにより、パイプラインが脆弱になります。
この研究では、\textit{対照的報酬} という名前の報酬にペナルティ項を導入することで、報酬モデルの有効性を向上させます。
%対比報酬 私たちのアプローチには 2 つのステップが含まれます: (1) ベースライン計算として機能するプロンプトに対する応答を取得するオフライン サンプリング ステップ、および (2) ベースライン応答を使用して計算され、近接ポリシー最適化 (PPO) ステップで使用される対比報酬。
対照的な報酬により、LLM が報酬の不確実性を軽減し、ロバスト性を向上させ、ベースラインを超える改善を促し、タスクの難易度に応じて調整し、PPO の分散を減らすことができることを示します。
我々は、GPT と人間の両方による評価で、対照的な報酬が RLHF を大幅に改善できることを経験的に示しており、我々の方法は一貫して強力なベースラインを上回っています。
要約(オリジナル)
Reinforcement learning from human feedback (RLHF) is the mainstream paradigm used to align large language models (LLMs) with human preferences. Yet existing RLHF heavily relies on accurate and informative reward models, which are vulnerable and sensitive to noise from various sources, e.g. human labeling errors, making the pipeline fragile. In this work, we improve the effectiveness of the reward model by introducing a penalty term on the reward, named as \textit{contrastive rewards}. %Contrastive rewards Our approach involves two steps: (1) an offline sampling step to obtain responses to prompts that serve as baseline calculation and (2) a contrastive reward calculated using the baseline responses and used in the Proximal Policy Optimization (PPO) step. We show that contrastive rewards enable the LLM to penalize reward uncertainty, improve robustness, encourage improvement over baselines, calibrate according to task difficulty, and reduce variance in PPO. We show empirically contrastive rewards can improve RLHF substantially, evaluated by both GPTs and humans, and our method consistently outperforms strong baselines.
arxiv情報
著者 | Wei Shen,Xiaoying Zhang,Yuanshun Yao,Rui Zheng,Hongyi Guo,Yang Liu |
発行日 | 2024-03-12 14:51:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google