Aesthetic Post-Training Diffusion Models from Generic Preferences with Step-by-step Preference Optimization

要約

視覚的に魅力的な画像を生成することは、最新のテキストから画像への生成モデルの基礎です。
美観を向上させる潜在的な解決策は直接優先最適化 (DPO) です。これは拡散モデルに適用され、プロンプト位置合わせや美観を含む一般的な画質を向上させます。
一般的な DPO メソッドは、クリーンなイメージのペアから 2 つの生成軌跡に沿ってすべての中間ステップに優先ラベルを伝播します。
ただし、既存のデータセットで提供されている好みラベルは、レイアウトや美的意見と混合されており、美的好みとは一致しません。
たとえ美的ラベルが (かなりのコストをかけて) 提供されたとしても、2 つの軌跡法では異なるステップで微妙な視覚的な違いを捉えるのは困難です。
経済的に美観を向上させるために、この論文では既存の一般的な嗜好データを使用し、伝播戦略を破棄して画像の詳細をきめ細かく評価できるようにするステップバイステップの嗜好最適化 (SPO) を導入します。
具体的には、各ノイズ除去ステップで、1) 共有ノイズ潜在からノイズを除去することによって候補のプールをサンプリングし、2) ステップ認識優先モデルを使用して、拡散モデルを監視する適切な勝ち負けペアを見つけます。3) ランダムに
プールから 1 つを選択して、次のノイズ除去ステップを初期化します。
この戦略により、拡散モデルはレイアウトの側面ではなく、微妙で細かい視覚的な違いに焦点を当てることが保証されます。
こうした改善された小さな違いを積み重ねることで、美観が大幅に向上することがわかりました。
Stable Diffusion v1.5 および SDXL を微調整する場合、SPO は既存の DPO 方法と比較して美観が大幅に向上し、バニラ モデルと比較して画像とテキストの位置合わせが犠牲になることはありません。
さらに、SPO は、きめの細かい視覚的な詳細を段階的に調整するため、DPO メソッドよりもはるかに高速に収束します。
コードとモデルは https://github.com/RockyCoss/SPO で入手できます。

要約(オリジナル)

Generating visually appealing images is fundamental to modern text-to-image generation models. A potential solution to better aesthetics is direct preference optimization (DPO), which has been applied to diffusion models to improve general image quality including prompt alignment and aesthetics. Popular DPO methods propagate preference labels from clean image pairs to all the intermediate steps along the two generation trajectories. However, preference labels provided in existing datasets are blended with layout and aesthetic opinions, which would disagree with aesthetic preference. Even if aesthetic labels were provided (at substantial cost), it would be hard for the two-trajectory methods to capture nuanced visual differences at different steps. To improve aesthetics economically, this paper uses existing generic preference data and introduces step-by-step preference optimization (SPO) that discards the propagation strategy and allows fine-grained image details to be assessed. Specifically, at each denoising step, we 1) sample a pool of candidates by denoising from a shared noise latent, 2) use a step-aware preference model to find a suitable win-lose pair to supervise the diffusion model, and 3) randomly select one from the pool to initialize the next denoising step. This strategy ensures that the diffusion models to focus on the subtle, fine-grained visual differences instead of layout aspect. We find that aesthetic can be significantly enhanced by accumulating these improved minor differences. When fine-tuning Stable Diffusion v1.5 and SDXL, SPO yields significant improvements in aesthetics compared with existing DPO methods while not sacrificing image-text alignment compared with vanilla models. Moreover, SPO converges much faster than DPO methods due to the step-by-step alignment of fine-grained visual details. Code and models are available at https://github.com/RockeyCoss/SPO.

arxiv情報

著者 Zhanhao Liang,Yuhui Yuan,Shuyang Gu,Bohan Chen,Tiankai Hang,Mingxi Cheng,Ji Li,Liang Zheng
発行日 2024-12-06 17:59:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク