要約
我々は、人間の選好モデルからのスコアなどの微分可能な報酬関数を最大化するために拡散モデルを微調整するためのシンプルで効果的な方法である直接報酬微調整 (DRaFT) を紹介します。
まず、完全なサンプリング手順を通じて報酬関数勾配を逆伝播することが可能であること、そしてそうすることでさまざまな報酬に対して強力なパフォーマンスが達成され、強化学習ベースのアプローチを上回るパフォーマンスを達成できることを示します。
次に、DRaFT のより効率的なバリアント、つまりバックプロパゲーションをサンプリングの最後の K ステップのみに切り捨てる DRaFT-K と、K=1 の場合に低分散勾配推定値を取得する DRaFT-LV を提案します。
私たちの方法がさまざまな報酬関数に対してうまく機能し、Stable Diffusion 1.4 によって生成された画像の美的品質を大幅に向上させるために使用できることを示します。
最後に、私たちのアプローチと以前の研究の間のつながりを描き、勾配ベースの微調整アルゴリズムの設計空間に関する統一的な視点を提供します。
要約(オリジナル)
We present Direct Reward Fine-Tuning (DRaFT), a simple and effective method for fine-tuning diffusion models to maximize differentiable reward functions, such as scores from human preference models. We first show that it is possible to backpropagate the reward function gradient through the full sampling procedure, and that doing so achieves strong performance on a variety of rewards, outperforming reinforcement learning-based approaches. We then propose more efficient variants of DRaFT: DRaFT-K, which truncates backpropagation to only the last K steps of sampling, and DRaFT-LV, which obtains lower-variance gradient estimates for the case when K=1. We show that our methods work well for a variety of reward functions and can be used to substantially improve the aesthetic quality of images generated by Stable Diffusion 1.4. Finally, we draw connections between our approach and prior work, providing a unifying perspective on the design space of gradient-based fine-tuning algorithms.
arxiv情報
著者 | Kevin Clark,Paul Vicol,Kevin Swersky,David J Fleet |
発行日 | 2023-09-29 17:01:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google