要約
直接選好最適化(DPO)は、人間のフィードバック(RLHF)からの強化学習の効果的かつ効率的な代替手段として提案されています。
この論文では、テキストからイメージの生成のためのカリキュラム学習に基づいて、DPOの斬新で強化されたバージョンを提案します。
私たちの方法は、2つのトレーニング段階に分かれています。
まず、各プロンプトに対して生成された例のランキングは、報酬モデルを使用することによって取得されます。
次に、ますます困難な例のペアがサンプリングされ、テキストからイメージまでの生成(拡散または一貫性)モデルに提供されます。
ランキングで遠く離れている生成されたサンプルは、簡単なペアを形成すると考えられていますが、ランキングはハードペアに近いものです。
言い換えれば、サンプル間のランク差を難易度の尺度として使用します。
サンプリングされたペアは、難易度に応じてバッチに分割され、生成モデルのトレーニングに徐々に使用されます。
私たちのアプローチであるカリキュラムDPOは、9つのベンチマーク上の最先端の微調整アプローチと比較され、テキストの調整、美学、人間の好みの観点から競合する方法を上回ります。
私たちのコードは、https://github.com/croitrualin/curriculum-dpoで入手できます。
要約(オリジナル)
Direct Preference Optimization (DPO) has been proposed as an effective and efficient alternative to reinforcement learning from human feedback (RLHF). In this paper, we propose a novel and enhanced version of DPO based on curriculum learning for text-to-image generation. Our method is divided into two training stages. First, a ranking of the examples generated for each prompt is obtained by employing a reward model. Then, increasingly difficult pairs of examples are sampled and provided to a text-to-image generative (diffusion or consistency) model. Generated samples that are far apart in the ranking are considered to form easy pairs, while those that are close in the ranking form hard pairs. In other words, we use the rank difference between samples as a measure of difficulty. The sampled pairs are split into batches according to their difficulty levels, which are gradually used to train the generative model. Our approach, Curriculum DPO, is compared against state-of-the-art fine-tuning approaches on nine benchmarks, outperforming the competing methods in terms of text alignment, aesthetics and human preference. Our code is available at https://github.com/CroitoruAlin/Curriculum-DPO.
arxiv情報
著者 | Florinel-Alin Croitoru,Vlad Hondru,Radu Tudor Ionescu,Nicu Sebe,Mubarak Shah |
発行日 | 2025-03-11 16:44:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google