要約
ヒューマン フィードバックからの強化学習 (RLHF) は、言語モデルを人間の価値観や意図に合わせて調整するための重要なテクノロジーとなり、モデルがより有益で無害な応答を生成できるようになります。
報酬モデルは、強化学習の最適化を推進するために、人間の好みの代理としてトレーニングされます。
報酬モデルは多くの場合、高いパフォーマンスを達成するための中心であると考えられていますが、実際のアプリケーションでは次のような課題に直面しています: (1) データセット内の不正確で曖昧な嗜好ペアは、報酬モデルが人間の意図を正確に捉えることを妨げる可能性があります。
(2) 特定の分布からのデータに基づいてトレーニングされた報酬モデルは、多くの場合、その分布外の例に一般化するのに苦労し、反復的な RLHF トレーニングには適していません。
このレポートでは、これら 2 つの問題に対処しようとします。
(1) データの観点から、複数の報酬モデルの投票メカニズムに基づいて、データ内の選好の強さを測定する方法を提案します。
実験結果により、嗜好の強さが異なるデータは報酬モデルのパフォーマンスに異なる影響を与えることが確認されています。
データセット内の不正確で曖昧な好みの影響を軽減し、高品質の好みデータを最大限に活用するための一連の新しい方法を紹介します。
(2) アルゴリズムの観点から、選択された応答と拒否された応答を区別する報酬モデルの能力を強化するために対照学習を導入し、それによってモデルの一般化を改善します。
さらに、メタ学習を採用して、報酬モデルが分布外サンプルの微妙な違いを区別する能力を維持できるようにし、このアプローチは反復的な RLHF 最適化に利用できます。
要約(オリジナル)
Reinforcement Learning from Human Feedback (RLHF) has become a crucial technology for aligning language models with human values and intentions, enabling models to produce more helpful and harmless responses. Reward models are trained as proxies for human preferences to drive reinforcement learning optimization. While reward models are often considered central to achieving high performance, they face the following challenges in practical applications: (1) Incorrect and ambiguous preference pairs in the dataset may hinder the reward model from accurately capturing human intent. (2) Reward models trained on data from a specific distribution often struggle to generalize to examples outside that distribution and are not suitable for iterative RLHF training. In this report, we attempt to address these two issues. (1) From a data perspective, we propose a method to measure the strength of preferences within the data, based on a voting mechanism of multiple reward models. Experimental results confirm that data with varying preference strengths have different impacts on reward model performance. We introduce a series of novel methods to mitigate the influence of incorrect and ambiguous preferences in the dataset and fully leverage high-quality preference data. (2) From an algorithmic standpoint, we introduce contrastive learning to enhance the ability of reward models to distinguish between chosen and rejected responses, thereby improving model generalization. Furthermore, we employ meta-learning to enable the reward model to maintain the ability to differentiate subtle differences in out-of-distribution samples, and this approach can be utilized for iterative RLHF optimization.
arxiv情報
著者 | Binghai Wang,Rui Zheng,Lu Chen,Yan Liu,Shihan Dou,Caishuang Huang,Wei Shen,Senjie Jin,Enyu Zhou,Chenyu Shi,Songyang Gao,Nuo Xu,Yuhao Zhou,Xiaoran Fan,Zhiheng Xi,Jun Zhao,Xiao Wang,Tao Ji,Hang Yan,Lixing Shen,Zhan Chen,Tao Gui,Qi Zhang,Xipeng Qiu,Xuanjing Huang,Zuxuan Wu,Yu-Gang Jiang |
発行日 | 2024-01-12 09:46:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google