Step-aware Preference Optimization: Aligning Preference with Denoising Performance at Each Step

要約

最近、Direct Preference Optimization (DPO) は、大規模言語モデル (LLM) の調整から、テキストから画像への拡散モデルを人間の好みに合わせるまでその成功を拡大しました。
すべての拡散ステップが最終的に生成された画像と一貫した優先順位を共有すると仮定するほとんどの既存の DPO 手法とは異なり、この仮定はステップ固有のノイズ除去パフォーマンスを無視しており、優先ラベルは各ステップの寄与に合わせて調整されるべきであると主張します。
この制限に対処するために、私たちは、ステップ認識プリファレンス最適化 (SPO) を提案します。これは、ステップ認識プリファレンス モデルと段階的リサンプラーを使用して、正確性を確保するために各ステップでノイズ除去パフォーマンスを個別に評価および調整する新しいトレーニング後のアプローチです。
段階を意識した監督。
具体的には、各ノイズ除去ステップで、画像のプールをサンプリングし、適切な勝敗ペアを見つけます。そして最も重要なこととして、次のノイズ除去ステップを初期化するためにプールから 1 つの画像をランダムに選択します。
この段階的なリサンプラー プロセスにより、次の勝敗画像ペアが同じ画像から取得されることが保証され、勝敗比較が前のステップから独立したものになります。
各ステップでの好みを評価するために、ノイズの多い画像とクリーンな画像の両方に適用できる個別のステップ認識の好みモデルをトレーニングします。
Stable Diffusion v1.5 と SDXL を使用した実験では、SPO が生成された画像を複雑で詳細なプロンプトに合わせて調整し、美観を向上させる点で最新の Diffusion-DPO よりも大幅に優れていると同時に、トレーニング効率も 20 倍以上高速であることが実証されました。
コードとモデル: https://rockeycoss.github.io/spo.github.io/

要約(オリジナル)

Recently, Direct Preference Optimization (DPO) has extended its success from aligning large language models (LLMs) to aligning text-to-image diffusion models with human preferences. Unlike most existing DPO methods that assume all diffusion steps share a consistent preference order with the final generated images, we argue that this assumption neglects step-specific denoising performance and that preference labels should be tailored to each step’s contribution. To address this limitation, we propose Step-aware Preference Optimization (SPO), a novel post-training approach that independently evaluates and adjusts the denoising performance at each step, using a step-aware preference model and a step-wise resampler to ensure accurate step-aware supervision. Specifically, at each denoising step, we sample a pool of images, find a suitable win-lose pair, and, most importantly, randomly select a single image from the pool to initialize the next denoising step. This step-wise resampler process ensures the next win-lose image pair comes from the same image, making the win-lose comparison independent of the previous step. To assess the preferences at each step, we train a separate step-aware preference model that can be applied to both noisy and clean images. Our experiments with Stable Diffusion v1.5 and SDXL demonstrate that SPO significantly outperforms the latest Diffusion-DPO in aligning generated images with complex, detailed prompts and enhancing aesthetics, while also achieving more than 20x times faster in training efficiency. Code and model: https://rockeycoss.github.io/spo.github.io/

arxiv情報

著者 Zhanhao Liang,Yuhui Yuan,Shuyang Gu,Bohan Chen,Tiankai Hang,Ji Li,Liang Zheng
発行日 2024-06-06 17:57:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク