Tuning Timestep-Distilled Diffusion Model Using Pairwise Sample Optimization

要約

最近のタイムステップ拡散モデルの進歩により、非拡散マルチステップモデルに匹敵する高品質な画像生成が可能になったが、推論ステップは大幅に減少している。このようなモデルは、推論コストとレイテンシが低いため、アプリケーションにとって魅力的ですが、素朴な拡散目的で微調整を行うと、劣化したぼやけた出力になってしまいます。直感的な代替案は、微調整された教師モデルで拡散蒸留プロセスを繰り返すことであるが、これは良い結果をもたらすが、面倒で計算集約的である。本論文では、任意のタイムステップ蒸留拡散モデルの直接微調整を可能にする、ペアワイズサンプル最適化(PSO)と名付けられたアルゴリズムを紹介する。PSOは、現在のタイムステップ蒸留モデルからサンプリングした参照画像を追加導入し、学習画像と参照画像との間の相対的な尤度マージンを増加させる。これにより、モデルの数ステップ生成能力を維持しつつ、出力分布の微調整を可能にする。また、PSOは一般化された定式化であり、オフラインサンプルとオンラインサンプルのペアワイズデータの両方に柔軟に拡張でき、拡散モデルの嗜好最適化の様々な一般的な目的をカバーできることを示す。我々は、PSOを嗜好最適化と、スタイル転送やコンセプトのカスタマイズを含む他の微調整タスクの両方で評価する。我々は、PSOが、オフラインとオンライン両方で生成されたペアワイズ嗜好画像データを用いて、抽出されたモデルを直接人間の嗜好に適合させることができることを示す。PSOはまた、タイムステップ蒸留された拡散モデルを直接チューニングすることで、スタイル転送とコンセプトカスタマイズの有効性を示す。

要約(オリジナル)

Recent advancements in timestep-distilled diffusion models have enabled high-quality image generation that rivals non-distilled multi-step models, but with significantly fewer inference steps. While such models are attractive for applications due to the low inference cost and latency, fine-tuning them with a naive diffusion objective would result in degraded and blurry outputs. An intuitive alternative is to repeat the diffusion distillation process with a fine-tuned teacher model, which produces good results but is cumbersome and computationally intensive; the distillation training usually requires magnitude higher of training compute compared to fine-tuning for specific image styles. In this paper, we present an algorithm named pairwise sample optimization (PSO), which enables the direct fine-tuning of an arbitrary timestep-distilled diffusion model. PSO introduces additional reference images sampled from the current time-step distilled model, and increases the relative likelihood margin between the training images and reference images. This enables the model to retain its few-step generation ability, while allowing for fine-tuning of its output distribution. We also demonstrate that PSO is a generalized formulation which can be flexibly extended to both offline-sampled and online-sampled pairwise data, covering various popular objectives for diffusion model preference optimization. We evaluate PSO in both preference optimization and other fine-tuning tasks, including style transfer and concept customization. We show that PSO can directly adapt distilled models to human-preferred generation with both offline and online-generated pairwise preference image data. PSO also demonstrates effectiveness in style transfer and concept customization by directly tuning timestep-distilled diffusion models.

arxiv情報

著者 Zichen Miao,Zhengyuan Yang,Kevin Lin,Ze Wang,Zicheng Liu,Lijuan Wang,Qiang Qiu
発行日 2025-03-03 04:11:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク