要約
生成基礎モデルは、教師なし学習データから生じる暗黙のバイアスの影響を受けやすい。このようなバイアスは、最適でないサンプル、歪んだ結果、不公正を生み出す可能性があり、潜在的に深刻な結果をもたらす。従って、これらのモデルを人間の倫理や嗜好に合わせることは、実世界のアプリケーションにおいて責任ある効果的な展開を保証するための不可欠なステップである。先行研究では、この問題に対処するために、主に人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback:RLHF)を採用してきた。そこでは、生成モデルは、人間のフィードバック情報に基づく報酬モデルによって導かれるRLアルゴリズムで微調整される。しかしながら、RLアルゴリズムに関連する非効率性や不安定性は、アライメントを成功させる上で大きな障害となることが多く、よりロバストで合理的なアプローチを開発する必要がある。この目的のために、我々は、生成モデルを効果的にアライメントするために設計された新しいフレームワーク、Reward rAnked FineTuning (RAFT)を導入する。報酬モデルと十分な数のサンプルを利用することで、本アプローチは高品質なサンプルを選択し、望ましくない振る舞いを示すサンプルを破棄する。我々の研究は、RAFTが大規模言語モデルと拡散モデルの両方において、報酬学習と他の自動化された測定基準の両方でモデルの性能を効果的に改善できることを示している。
要約(オリジナル)
Generative foundation models are susceptible to implicit biases that can arise from extensive unsupervised training data. Such biases can produce suboptimal samples, skewed outcomes, and unfairness, with potentially serious consequences. Consequently, aligning these models with human ethics and preferences is an essential step toward ensuring their responsible and effective deployment in real-world applications. Prior research has primarily employed Reinforcement Learning from Human Feedback (RLHF) to address this problem, where generative models are fine-tuned with RL algorithms guided by a human-feedback-informed reward model. However, the inefficiencies and instabilities associated with RL algorithms frequently present substantial obstacles to the successful alignment, necessitating the development of a more robust and streamlined approach. To this end, we introduce a new framework, Reward rAnked FineTuning (RAFT), designed to align generative models effectively. Utilizing a reward model and a sufficient number of samples, our approach selects the high-quality samples, discarding those that exhibit undesired behavior, and subsequently enhancing the model by fine-tuning on these filtered samples. Our studies show that RAFT can effectively improve the model performance in both reward learning and other automated metrics in both large language models and diffusion models.
arxiv情報
| 著者 | Hanze Dong,Wei Xiong,Deepanshu Goyal,Yihan Zhang,Winnie Chow,Rui Pan,Shizhe Diao,Jipeng Zhang,Kashun Shum,Tong Zhang | 
| 発行日 | 2023-12-01 14:28:06+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
