Boundary Guided Mixing Trajectory for Semantic Control with Diffusion Models


画像セマンティック編集などのダウンストリーム タスクに強力なジェネレーティブ ノイズ除去拡散モデル (DDM) を適用するには、通常、事前トレーニング済みの DDM を微調整するか、補助編集ネットワークを学習する必要があります。
この作業では、凍結された DDM のみを介してノイズ除去軌道を最適化することにより、さまざまなアプリケーション設定で SOTA セマンティック制御パフォーマンスを実現します。
最初の最適化ベースの拡散編集作業の 1 つとして、マルコフ連鎖における確率的および幾何学的挙動を理論的および経験的に分析することにより、中間の高次元潜在空間のより包括的な理解を求めることから始めます。
次に、事前トレーニング済みの DDM の収束を特徴付けるノイズ除去軌道の重要なステップをさらに調査することを提案します。
さまざまな DPM アーキテクチャ (DDPM、iDDPM) とデータセット (CelebA、CelebA-HQ、LSUN-church、LSUN-bedroom、AFHQ-dog) で、さまざまな解像度 (64、256) を経験的なデモンストレーションとして広範な実験を行います。


Applying powerful generative denoising diffusion models (DDMs) for downstream tasks such as image semantic editing usually requires either fine-tuning pre-trained DDMs or learning auxiliary editing networks. In this work, we achieve SOTA semantic control performance on various application settings by optimizing the denoising trajectory solely via frozen DDMs. As one of the first optimization-based diffusion editing work, we start by seeking a more comprehensive understanding of the intermediate high-dimensional latent spaces by theoretically and empirically analyzing their probabilistic and geometric behaviors in the Markov chain. We then propose to further explore the critical step in the denoising trajectory that characterizes the convergence of a pre-trained DDM. Last but not least, we further present our method to search for the semantic subspaces boundaries for controllable manipulation, by guiding the denoising trajectory towards the targeted boundary at the critical convergent step. We conduct extensive experiments on various DPMs architectures (DDPM, iDDPM) and datasets (CelebA, CelebA-HQ, LSUN-church, LSUN-bedroom, AFHQ-dog) with different resolutions (64, 256) as empirical demonstrations.


著者 Ye Zhu,Yu Wu,Zhiwei Deng,Olga Russakovsky,Yan Yan
発行日 2023-02-16 15:21:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV パーマリンク