要約
画像セマンティック編集などの下流タスクに事前トレーニング済みの生成ノイズ除去拡散モデル (DDM) を適用するには、通常、DDM を微調整するか、既存の文献で補助編集ネットワークを学習する必要があります。
この研究では、追加のネットワークを学習することなく、フリーズされた事前トレーニング済み DDM を使用して効率的、効果的かつ軽量のセマンティック制御を実現する BoundaryDiffusion メソッドを紹介します。
最初の学習不要の拡散編集作業の 1 つとして、私たちは、マルコフ連鎖における確率的および幾何学的挙動を理論的および経験的に分析することにより、中間高次元潜在空間の包括的な理解を目指すことから始めます。
次に、事前トレーニングされた DDM の収束を特徴付けるノイズ除去軌跡の編集の重要なステップをさらに調査し、自動検索方法を導入することを提案します。
最後に重要なことですが、DDM は意味論的な動作が比較的貧弱であるという従来の理解とは対照的に、私たちが発見した臨界潜在空間は無条件 DDM の一般レベルですでに意味論的な部分空間境界を示しており、これによりガイドによって制御可能な操作が可能になることを証明します。
シングルステップ操作により、ターゲット境界に向かうノイズ除去軌道。
私たちは、さまざまな解像度 (64、256) の複数の DPM アーキテクチャ (DDPM、iDDPM) とデータセット (CelebA、CelebA-HQ、LSUN-church、LSUN-bedroom、AFHQ-dog) で広範な実験を実施し、優れた、または最高の状態を実現します。
さまざまなタスク シナリオ (画像セマンティック編集、テキストベースの編集、無条件セマンティック制御) でのアート パフォーマンスを検証し、その効果を実証します。
要約(オリジナル)
Applying pre-trained generative denoising diffusion models (DDMs) for downstream tasks such as image semantic editing usually requires either fine-tuning DDMs or learning auxiliary editing networks in the existing literature. In this work, we present our BoundaryDiffusion method for efficient, effective and light-weight semantic control with frozen pre-trained DDMs, without learning any extra networks. As one of the first learning-free diffusion editing works, we start by seeking a comprehensive understanding of the intermediate high-dimensional latent spaces by theoretically and empirically analyzing their probabilistic and geometric behaviors in the Markov chain. We then propose to further explore the critical step for editing in the denoising trajectory that characterizes the convergence of a pre-trained DDM and introduce an automatic search method. Last but not least, in contrast to the conventional understanding that DDMs have relatively poor semantic behaviors, we prove that the critical latent space we found already exhibits semantic subspace boundaries at the generic level in unconditional DDMs, which allows us to do controllable manipulation by guiding the denoising trajectory towards the targeted boundary via a single-step operation. We conduct extensive experiments on multiple DPMs architectures (DDPM, iDDPM) and datasets (CelebA, CelebA-HQ, LSUN-church, LSUN-bedroom, AFHQ-dog) with different resolutions (64, 256), achieving superior or state-of-the-art performance in various task scenarios (image semantic editing, text-based editing, unconditional semantic control) to demonstrate the effectiveness.
arxiv情報
著者 | Ye Zhu,Yu Wu,Zhiwei Deng,Olga Russakovsky,Yan Yan |
発行日 | 2023-10-18 16:35:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google