要約
人間のフィードバックからの強化学習は、大規模な言語モデルを人間および社会の価値観に合わせるための重要な架け橋として機能します。
この調整には、報酬モデルを学習するために人間のフィードバックの膨大なコーパスが必要です。報酬モデルは、その後言語モデルを微調整するために使用されます。
しかし、報酬モデルは、人間がより長い応答を好むと誤解を招くような誤解を招き、意図された目的を回避する近道を見つけることがよくあることが判明しました。
長さの偏りの出現により、モデルは長い出力を優先することがよくありますが、それはこれらの出力内の有用な情報の増加と同等ではありません。
この論文では、Product-of-Experts (PoE) 技術を適用して報酬モデリングをシーケンス長の影響から分離する革新的なソリューションを提案します。
私たちのフレームワークでは、主な専門家は人間の意図を理解することに集中し、一方、偏った専門家は長さの偏りの特定と捕捉を目標とします。
バイアスの学習をさらに強化するために、バイアスに焦点を当てた専門家に摂動を導入し、意味情報の流れを混乱させます。
実験結果は私たちのアプローチの有効性を検証し、シーケンスの長さに関係なく言語モデルのパフォーマンスが向上することを示しています。
要約(オリジナル)
Reinforcement learning from human feedback serves as a crucial bridge, aligning large language models with human and societal values. This alignment requires a vast corpus of human feedback to learn a reward model, which is subsequently used to finetune language models. However, we have identified that the reward model often finds shortcuts to bypass its intended objectives, misleadingly assuming that humans prefer longer responses. The emergence of length bias often induces the model to favor longer outputs, yet it doesn’t equate to an increase in helpful information within these outputs. In this paper, we propose an innovative solution, applying the Product-of-Experts (PoE) technique to separate reward modeling from the influence of sequence length. In our framework, the main expert concentrates on understanding human intents, while the biased expert targets the identification and capture of length bias. To further enhance the learning of bias, we introduce perturbations into the bias-focused expert, disrupting the flow of semantic information. Experimental results validate the effectiveness of our approach, indicating that language model performance is improved, irrespective of sequence length.
arxiv情報
著者 | Wei Shen,Rui Zheng,Wenyu Zhan,Jun Zhao,Shihan Dou,Tao Gui,Qi Zhang,Xuanjing Huang |
発行日 | 2023-11-06 10:28:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google