要約
一般に、ターゲットの下流タスクでデータセットを収集することによって大規模な拡散モデルをトレーニングしますが、多くの場合、専門家によって設計された、または小規模なデータセットから学習されたいくつかの報酬関数に基づいて、事前トレーニングされた拡散モデルを調整して微調整することが望まれます。
拡散モデルを微調整するための既存の方法は、通常、生成されたサンプルの多様性の欠如、事前の保存の欠如、および/または微調整の収束が遅いという問題があります。
報酬関数の非正規化密度でサンプリングする確率モデルのクラスである生成フロー ネットワーク (GFlowNets) での最近の成功に触発されて、我々は Nabla-GFlowNet ($\nabla$-GFlowNet と略称) と呼ばれる新しい GFlowNet メソッドを提案します。
$\nabla$-DB と呼ばれる目標とそのバリアント残差とともに、報酬勾配の豊富な信号を活用する最初の GFlowNet メソッド
$\nbla$-DB は、拡散アライメントを事前に保存するように設計されています。
私たちの提案した方法は、さまざまな現実的な報酬関数上で、大規模なテキスト条件付き画像拡散モデルである安定拡散の、高速かつ多様性と事前保存の位置合わせを達成することを示します。
要約(オリジナル)
While one commonly trains large diffusion models by collecting datasets on target downstream tasks, it is often desired to align and finetune pretrained diffusion models on some reward functions that are either designed by experts or learned from small-scale datasets. Existing methods for finetuning diffusion models typically suffer from lack of diversity in generated samples, lack of prior preservation, and/or slow convergence in finetuning. Inspired by recent successes in generative flow networks (GFlowNets), a class of probabilistic models that sample with the unnormalized density of a reward function, we propose a novel GFlowNet method dubbed Nabla-GFlowNet (abbreviated as $\nabla$-GFlowNet), the first GFlowNet method that leverages the rich signal in reward gradients, together with an objective called $\nabla$-DB plus its variant residual $\nabla$-DB designed for prior-preserving diffusion alignment. We show that our proposed method achieves fast yet diversity- and prior-preserving alignment of Stable Diffusion, a large-scale text-conditioned image diffusion model, on different realistic reward functions.
arxiv情報
著者 | Zhen Liu,Tim Z. Xiao,Weiyang Liu,Yoshua Bengio,Dinghuai Zhang |
発行日 | 2024-12-10 18:59:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google