Hierarchical Diffusion Autoencoders and Disentangled Image Manipulation

要約

タイトル:階層ディフュージョンオートエンコーダーと分解画像操作
要約:
– 拡散モデルは、画像合成のための印象的なビジュアル品質を達成してきた。しかし、拡散モデルの潜在空間の解釈や操作方法は、ほとんど探求されていない。
– 従来の拡散オートエンコーダーは、意味論的表現を意味論的な潜在コードにエンコードするが、細かい情報や固有の特徴階層を反映することができない。
– これらの制限を緩和するために、私たちは、拡散モデルの潜在空間における細粒度から抽象的、低レベルから高レベルの特徴階層を利用したHierarchical Diffusion Autoencoders(HDAE)を提案する。
– HDAEの階層的な潜在空間は、異なる抽象レベルの意味論を内在的にエンコードし、より包括的な意味表現を提供する。
– 加えて、私たちは切り詰め特徴に基づくアプローチを提案し、分解画像操作を行う。
– 私たちは、広範囲な実験と、画像再構成、スタイルの混合、制御可能な補間、細部保持および分解画像操作、多様性のある意味画像合成における私たちのアプローチの効果を示した。

要約(オリジナル)

Diffusion models have attained impressive visual quality for image synthesis. However, how to interpret and manipulate the latent space of diffusion models has not been extensively explored. Prior work diffusion autoencoders encode the semantic representations into a semantic latent code, which fails to reflect the rich information of details and the intrinsic feature hierarchy. To mitigate those limitations, we propose Hierarchical Diffusion Autoencoders (HDAE) that exploit the fine-grained-to-abstract and lowlevel-to-high-level feature hierarchy for the latent space of diffusion models. The hierarchical latent space of HDAE inherently encodes different abstract levels of semantics and provides more comprehensive semantic representations. In addition, we propose a truncated-feature-based approach for disentangled image manipulation. We demonstrate the effectiveness of our proposed approach with extensive experiments and applications on image reconstruction, style mixing, controllable interpolation, detail-preserving and disentangled image manipulation, and multi-modal semantic image synthesis.

arxiv情報

著者 Zeyu Lu,Chengyue Wu,Xinyuan Chen,Yaohui Wang,Yu Qiao,Xihui Liu
発行日 2023-04-24 05:35:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CV パーマリンク