Aesthetic Post-Training Diffusion Models from Generic Preferences with Step-by-step Preference Optimization

要約

視覚的に魅力的な画像を生成することは、最新のテキストからイメージまでの生成モデルの基本です。
より良い美学に対する潜在的なソリューションは、直接選好最適化(DPO)です。これは、拡散モデルに適用され、迅速なアライメントや美学を含む一般的な画質を改善します。
人気のあるDPOメソッドは、クリーンな画像ペアから2つの世代の軌跡に沿ったすべての中間ステップまで優先ラベルを伝播します。
ただし、既存のデータセットで提供される優先ラベルは、レイアウトと審美的な意見とブレンドされており、審美的な好みに反対します。
審美的なラベルが(実質的なコストで)提供されたとしても、2回目の操縦方法がさまざまなステップで微妙な視覚的違いをキャプチャするのは難しいでしょう。
美学を経済的に改善するために、このペーパーでは、既存の汎用設定データを使用し、伝播戦略を廃棄し、細粒画像の詳細を評価できるステップバイステップ優先最適化(SPO)を導入します。
具体的には、各除去ステップで、1)共有ノイズ潜在性から除去することで候補者のプールをサンプリングし、2)ステップアウェア選好モデルを使用して適切なウィンローズペアを見つけて拡散モデルを監督し、3)プールから1つをランダムに選択して次の除去ステップを初期化します。
この戦略により、拡散モデルは、レイアウトの側面ではなく、微妙で微調整された視覚的な違いに焦点を当てることが保証されます。
これらの改善された小さな違いを蓄積することにより、美学を大幅に強化できることがわかります。
微調整した安定した拡散v1.5およびSDXLの場合、SPOは、既存のDPOメソッドと比較して美学の大幅な改善をもたらしますが、バニラモデルと比較して画像テキストアライメントを犠牲にしません。
さらに、SPOは、ステップアウェア設定モデルによって提供されるより正しい選好ラベルを使用するため、DPOメソッドよりもはるかに速く収束します。

要約(オリジナル)

Generating visually appealing images is fundamental to modern text-to-image generation models. A potential solution to better aesthetics is direct preference optimization (DPO), which has been applied to diffusion models to improve general image quality including prompt alignment and aesthetics. Popular DPO methods propagate preference labels from clean image pairs to all the intermediate steps along the two generation trajectories. However, preference labels provided in existing datasets are blended with layout and aesthetic opinions, which would disagree with aesthetic preference. Even if aesthetic labels were provided (at substantial cost), it would be hard for the two-trajectory methods to capture nuanced visual differences at different steps. To improve aesthetics economically, this paper uses existing generic preference data and introduces step-by-step preference optimization (SPO) that discards the propagation strategy and allows fine-grained image details to be assessed. Specifically, at each denoising step, we 1) sample a pool of candidates by denoising from a shared noise latent, 2) use a step-aware preference model to find a suitable win-lose pair to supervise the diffusion model, and 3) randomly select one from the pool to initialize the next denoising step. This strategy ensures that diffusion models focus on the subtle, fine-grained visual differences instead of layout aspect. We find that aesthetics can be significantly enhanced by accumulating these improved minor differences. When fine-tuning Stable Diffusion v1.5 and SDXL, SPO yields significant improvements in aesthetics compared with existing DPO methods while not sacrificing image-text alignment compared with vanilla models. Moreover, SPO converges much faster than DPO methods due to the use of more correct preference labels provided by the step-aware preference model.

arxiv情報

著者 Zhanhao Liang,Yuhui Yuan,Shuyang Gu,Bohan Chen,Tiankai Hang,Mingxi Cheng,Ji Li,Liang Zheng
発行日 2025-03-25 17:06:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク