Hierarchical Diffusion Autoencoders and Disentangled Image Manipulation

要約

タイトル:階層的拡散オートエンコーダーと分解された画像操作
要約:
– 拡散モデルは、画像合成のために印象的な視覚的品質を実現しています。
– しかし、拡散モデルの潜在的な空間を解釈し、操作する方法は、あまり探求されていません。
– これまでの拡散オートエンコーダーは、意味的表現を意味的な潜在コードにエンコードしていますが、細かい情報や固有の特徴階層を反映することができません。
– これらの制限を緩和するために、私たちは階層的拡散オートエンコーダー(HDAE)を提案し、拡散モデルの潜在空間に微細な抽象から抽象へと、そして低レベルから高レベルの特徴階層を利用することを提案しています。
– HDAEの階層的な潜在空間は、異なる抽象レベルの意味を内在的にエンコードし、より包括的な意味的表現を提供します。
– さらに、私たちは分解された画像操作のための切り詰め特徴ベースのアプローチを提案しています。
– 私たちは、画像の再構成、スタイルミックス、制御可能な補完、ディテール保持および分解された画像操作、および多様性のある意味的画像合成に関する包括的な実験とアプリケーションによって、提案されたアプローチの効果を示しています。

要約(オリジナル)

Diffusion models have attained impressive visual quality for image synthesis. However, how to interpret and manipulate the latent space of diffusion models has not been extensively explored. Prior work diffusion autoencoders encode the semantic representations into a semantic latent code, which fails to reflect the rich information of details and the intrinsic feature hierarchy. To mitigate those limitations, we propose Hierarchical Diffusion Autoencoders (HDAE) that exploit the fine-grained-to-abstract and lowlevel-to-high-level feature hierarchy for the latent space of diffusion models. The hierarchical latent space of HDAE inherently encodes different abstract levels of semantics and provides more comprehensive semantic representations. In addition, we propose a truncated-feature-based approach for disentangled image manipulation. We demonstrate the effectiveness of our proposed approach with extensive experiments and applications on image reconstruction, style mixing, controllable interpolation, detail-preserving and disentangled image manipulation, and multi-modal semantic image synthesis.

arxiv情報

著者 Zeyu Lu,Chengyue Wu,Xinyuan Chen,Yaohui Wang,Lei Bai,Yu Qiao,Xihui Liu
発行日 2023-04-25 17:11:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CV パーマリンク