要約
言語モデルの調整におけるヒューマン フィードバックからの強化学習 (RLHF) の成功は、報酬モデル (RM) の機能に大きく依存します。
ただし、トレーニング プロセスが進行するにつれて、ポリシー モデルの出力分布が変化し、応答を区別する RM の能力が低下します。
特定のデータ分布でトレーニングされた RM がその分布外の例に一般化するのに苦労する場合、この問題はさらに複雑になります。
これら 2 つの問題は、環境の分布の変化によってもたらされる課題として統合することができます。
この課題を克服するために、メタ学習を利用して RM をシフトされた環境分布に合わせて調整する手法である MetaRM を導入します。
MetaRM は、特にシフトされたターゲット分布の例に対する区別能力を向上させることができるデータのデータ損失を最小限に抑えて RM をトレーニングするように設計されています。
広範な実験により、MetaRM が反復 RLHF 最適化における RM の識別能力を大幅に向上させ、また、分布外サンプルの微妙な違いを識別する能力も提供することが実証されました。
要約(オリジナル)
The success of Reinforcement Learning from Human Feedback (RLHF) in language model alignment is critically dependent on the capability of the reward model (RM). However, as the training process progresses, the output distribution of the policy model shifts, leading to the RM’s reduced ability to distinguish between responses. This issue is further compounded when the RM, trained on a specific data distribution, struggles to generalize to examples outside of that distribution. These two issues can be united as a challenge posed by the shifted distribution of the environment. To surmount this challenge, we introduce MetaRM, a method leveraging meta-learning to align the RM with the shifted environment distribution. MetaRM is designed to train the RM by minimizing data loss, particularly for data that can improve the differentiation ability to examples of the shifted target distribution. Extensive experiments demonstrate that MetaRM significantly improves the RM’s distinguishing ability in iterative RLHF optimization, and also provides the capacity to identify subtle differences in out-of-distribution samples.
arxiv情報
著者 | Shihan Dou,Yan Liu,Enyu Zhou,Tianlong Li,Haoxiang Jia,Limao Xiong,Xin Zhao,Junjie Ye,Rui Zheng,Tao Gui,Qi Zhang,Xuanjing Huang |
発行日 | 2024-05-01 10:43:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google