要約
人間のフィードバックからの強化学習 (RLHF) の標準的な実践には、望ましい世代に対する人間の好みを反映するように訓練された報酬モデル (RM) に対する最適化が含まれます。
研究が進んでいない注目すべき主題は、RM の(非)一貫性、つまり RM がさまざまなプロンプトに対する意味論的な変更を認識し、報酬の割り当てを適切に適応できるかどうか、そして下流の RLHF モデルに対するその影響です。
この論文では、RM の不一致に関連する一連の研究上の疑問を取り上げます: (1) 報酬モデルの一貫性をどのように測定できるか?
(2) 既存の RM はどの程度一貫性がありますか? どうすれば改善できるでしょうか?
(3) 報酬の不一致は、RLHF モデルのトレーニングから生じるチャットボットにどのような影響を及ぼしますか?
私たちは、RM の一貫性のためのベンチマーク戦略であるコントラスト指示を提案します。
コントラスト命令の各例には、異なるグラウンド トゥルース応答を持つ、語彙的に類似した 1 対の命令が含まれています。
一貫した RM では、対応する命令と応答が他の組み合わせよりも高くランク付けされることが期待されます。
標準的なランキング目標で訓練された現在の RM は、平均的な人間と比較して、コントラスト命令で惨めに失敗することが観察されています。
追加のトレーニング予算を使用せずに RM の一貫性を効率的に改善できることを示すために、ConvexDA と RewardFusion の 2 つの手法を提案します。これらの技術は、それぞれ RM トレーニングと推論段階での外挿によって報酬の一貫性を強化します。
より一貫した RM でトレーニングされた RLHF モデルは、より有用な応答を生成することを示し、報酬の不一致が下流の RLHF プロセスにトリクルダウン効果を示すことを示唆しています。
要約(オリジナル)
Standard practice within Reinforcement Learning from Human Feedback (RLHF) involves optimizing against a Reward Model (RM), which itself is trained to reflect human preferences for desirable generations. A notable subject that is understudied is the (in-)consistency of RMs — whether they can recognize the semantic changes to different prompts and appropriately adapt their reward assignments — and their impact on the downstream RLHF model. In this paper, we visit a series of research questions relevant to RM inconsistency: (1) How can we measure the consistency of reward models? (2) How consistent are the existing RMs and how can we improve them? (3) In what ways does reward inconsistency influence the chatbots resulting from the RLHF model training? We propose Contrast Instructions — a benchmarking strategy for the consistency of RM. Each example in Contrast Instructions features a pair of lexically similar instructions with different ground truth responses. A consistent RM is expected to rank the corresponding instruction and response higher than other combinations. We observe that current RMs trained with the standard ranking objective fail miserably on Contrast Instructions compared to average humans. To show that RM consistency can be improved efficiently without using extra training budget, we propose two techniques ConvexDA and RewardFusion, which enhance reward consistency through extrapolation during the RM training and inference stage, respectively. We show that RLHF models trained with a more consistent RM yield more useful responses, suggesting that reward inconsistency exhibits a trickle-down effect on the downstream RLHF process.
arxiv情報
著者 | Lingfeng Shen,Sihao Chen,Linfeng Song,Lifeng Jin,Baolin Peng,Haitao Mi,Daniel Khashabi,Dong Yu |
発行日 | 2023-09-28 04:05:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google