A Long Way to Go: Investigating Length Correlations in RLHF

要約

大規模な言語モデルを調整するためにヒューマン フィードバックからの強化学習 (RLHF) を使用した大きな成功が報告されています。
オープンソースの嗜好データセットと報酬モデルにより、一般的なチャット設定を超えた幅広い実験が可能になり、特に Web での質問応答、要約、複数ターンの対話などのタスクに対してシステムをより「役立つ」ものにすることができました。
有用性を最適化する場合、RLHF はモデルを駆動してより長い出力を生成することが一貫して観察されています。
この論文は、応答長の最適化が、RLHF が報告したこれらの設定の改善の背後にある重要な要因であることを示しています。
まず、有用性について 3 つのオープンソースの嗜好データセットでトレーニングされた報酬モデルの報酬と長さの関係を研究します。
ここで、長さは報酬と強い相関関係があり、報酬スコアの向上は主に、出力の長さにわたって分布をシフトすることによって促進されます。
次に、RL と報酬モデルの両方の学習中に介入を検討し、長さを増やさずに RLHF と同じ下流の改善を達成できるかどうかを確認します。
私たちの介入は長さの増加を軽減しますが、設定全体で均一に効果があるわけではありません。
さらに、長さだけに基づいた報酬で RLHF を実行した場合でも、初期のポリシー モデルに対する下流の改善のほとんどを再現できることがわかり、これらの設定での報酬モデルには長い道のりがあることが示されています。

要約(オリジナル)

Great successes have been reported using Reinforcement Learning from Human Feedback (RLHF) to align large language models. Open-source preference datasets and reward models have enabled wider experimentation beyond generic chat settings, particularly to make systems more ‘helpful’ for tasks like web question answering, summarization, and multi-turn dialogue. When optimizing for helpfulness, RLHF has been consistently observed to drive models to produce longer outputs. This paper demonstrates that optimizing for response length is a significant factor behind RLHF’s reported improvements in these settings. First, we study the relationship between reward and length for reward models trained on three open-source preference datasets for helpfulness. Here, length correlates strongly with reward, and improvements in reward score are driven in large part by shifting the distribution over output lengths. We then explore interventions during both RL and reward model learning to see if we can achieve the same downstream improvements as RLHF without increasing length. While our interventions mitigate length increases, they aren’t uniformly effective across settings. Furthermore, we find that even running RLHF with a reward based solely on length can reproduce most of the downstream improvements over the initial policy model, showing that reward models in these settings have a long way to go.

arxiv情報

著者 Prasann Singhal,Tanya Goyal,Jiacheng Xu,Greg Durrett
発行日 2023-10-05 17:38:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク