Efficient Diversity-Preserving Diffusion Alignment via Gradient-Informed GFlowNets

要約

一般に、ターゲットのダウンストリームタスクでデータセットを収集することにより大きな拡散モデルをトレーニングしますが、専門家によって設計された、または小規模データセットから学習されたいくつかの報酬機能を備えた、前処理された拡散モデルを調整および微調整することがしばしば望まれます。
拡散モデルの報酬の微調整のための既存のトレーニング後の方法は、通常、生成されたサンプルの多様性の欠如、事前の保存の欠如、および/または微調整のゆっくりした収束に苦しんでいます。
生成フローネットワーク(Gflownets)での最近の成功に触発され、報酬関数の非正規化密度でサンプリングする確率モデルのクラスでは、Nabla-Gflownet(\ Methodnameとして略された)と呼ばれる新しいGflownetメソッドを提案します。
以前の拡散微調整のため。
私たちの提案された方法は、さまざまな現実的な報酬関数で、大規模なテキスト条件の画像拡散モデルである、安定した拡散の高速でありながら多様性および以前の予測の微調整を達成することを示しています。

要約(オリジナル)

While one commonly trains large diffusion models by collecting datasets on target downstream tasks, it is often desired to align and finetune pretrained diffusion models with some reward functions that are either designed by experts or learned from small-scale datasets. Existing post-training methods for reward finetuning of diffusion models typically suffer from lack of diversity in generated samples, lack of prior preservation, and/or slow convergence in finetuning. Inspired by recent successes in generative flow networks (GFlowNets), a class of probabilistic models that sample with the unnormalized density of a reward function, we propose a novel GFlowNet method dubbed Nabla-GFlowNet (abbreviated as \methodname), the first GFlowNet method that leverages the rich signal in reward gradients, together with an objective called \graddb plus its variant \resgraddb designed for prior-preserving diffusion finetuning. We show that our proposed method achieves fast yet diversity- and prior-preserving finetuning of Stable Diffusion, a large-scale text-conditioned image diffusion model, on different realistic reward functions.

arxiv情報

著者 Zhen Liu,Tim Z. Xiao,Weiyang Liu,Yoshua Bengio,Dinghuai Zhang
発行日 2025-03-06 15:15:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク