要約
一般に、ターゲットのダウンストリームタスクでデータセットを収集することにより大きな拡散モデルをトレーニングしますが、専門家によって設計された、または小規模データセットから学習されたいくつかの報酬機能を備えた、前処理された拡散モデルを調整および微調整することがしばしば望まれます。
拡散モデルの報酬の微調整のための既存のトレーニング後の方法は、通常、生成されたサンプルの多様性の欠如、事前の保存の欠如、および/または微調整のゆっくりした収束に苦しんでいます。
この課題に応えて、私たちは生成フローネットワーク(Gflownets)での最近の成功からインスピレーションを得て、拡散モデルの微調整の強化学習方法を提案します。
私たちの提案された方法は、さまざまな現実的な報酬関数で、大規模なテキスト条件の画像拡散モデルである、安定した拡散の高速でありながら多様性および以前の予測の微調整を達成することを示しています。
要約(オリジナル)
While one commonly trains large diffusion models by collecting datasets on target downstream tasks, it is often desired to align and finetune pretrained diffusion models with some reward functions that are either designed by experts or learned from small-scale datasets. Existing post-training methods for reward finetuning of diffusion models typically suffer from lack of diversity in generated samples, lack of prior preservation, and/or slow convergence in finetuning. In response to this challenge, we take inspiration from recent successes in generative flow networks (GFlowNets) and propose a reinforcement learning method for diffusion model finetuning, dubbed Nabla-GFlowNet (abbreviated as $\nabla$-GFlowNet), that leverages the rich signal in reward gradients for probabilistic diffusion finetuning. We show that our proposed method achieves fast yet diversity- and prior-preserving finetuning of Stable Diffusion, a large-scale text-conditioned image diffusion model, on different realistic reward functions.
arxiv情報
著者 | Zhen Liu,Tim Z. Xiao,Weiyang Liu,Yoshua Bengio,Dinghuai Zhang |
発行日 | 2025-05-06 17:24:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google