要約
生成基礎モデルは、広範な教師なしトレーニング データから生じる可能性のある暗黙的なバイアスの影響を受けやすくなります。
このようなバイアスにより、最適ではないサンプル、偏った結果、不公平が生じ、重大な結果を招く可能性があります。
したがって、これらのモデルを人間の倫理や好みに合わせることが、現実世界のアプリケーションで責任ある効果的な展開を確実にするための重要なステップとなります。
これまでの研究では、この問題に対処するために主にヒューマン フィードバックからの強化学習 (RLHF) が採用されており、人間のフィードバックに基づいた報酬モデルに基づいて生成モデルが RL アルゴリズムで微調整されています。
ただし、RL アルゴリズムに関連する非効率性と不安定性は、調整を成功させる上で大きな障害となることが多く、より堅牢で合理化されたアプローチの開発が必要です。
この目的を達成するために、生成モデルを効果的に調整するように設計された新しいフレームワークである Reward rAnked FineTuning (RAFT) を導入します。
報酬モデルと十分な数のサンプルを利用することで、私たちのアプローチは高品質のサンプルを選択し、望ましくない動作を示すサンプルを破棄し、その後これらのフィルターされたサンプルを微調整することでモデルを強化します。
私たちの研究は、RAFT が大規模言語モデルと拡散モデルの両方における報酬学習とその他の自動化メトリクスの両方でモデルのパフォーマンスを効果的に向上できることを示しています。
要約(オリジナル)
Generative foundation models are susceptible to implicit biases that can arise from extensive unsupervised training data. Such biases can produce suboptimal samples, skewed outcomes, and unfairness, with potentially serious consequences. Consequently, aligning these models with human ethics and preferences is an essential step toward ensuring their responsible and effective deployment in real-world applications. Prior research has primarily employed Reinforcement Learning from Human Feedback (RLHF) to address this problem, where generative models are fine-tuned with RL algorithms guided by a human-feedback-informed reward model. However, the inefficiencies and instabilities associated with RL algorithms frequently present substantial obstacles to the successful alignment, necessitating the development of a more robust and streamlined approach. To this end, we introduce a new framework, Reward rAnked FineTuning (RAFT), designed to align generative models effectively. Utilizing a reward model and a sufficient number of samples, our approach selects the high-quality samples, discarding those that exhibit undesired behavior, and subsequently enhancing the model by fine-tuning on these filtered samples. Our studies show that RAFT can effectively improve the model performance in both reward learning and other automated metrics in both large language models and diffusion models.
arxiv情報
著者 | Hanze Dong,Wei Xiong,Deepanshu Goyal,Yihan Zhang,Winnie Chow,Rui Pan,Shizhe Diao,Jipeng Zhang,Kashun Shum,Tong Zhang |
発行日 | 2023-08-30 01:25:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google