Unsupervised Region-Based Image Editing of Denoising Diffusion Models

要約

拡散モデルは画像生成の分野で目覚ましい成功を収めてきましたが、その潜在空間は依然として探求されていません。
潜在空間内のセマンティクスを識別する現在の方法は、テキスト情報やセグメンテーション マスクなどの外部監視に依存することがよくあります。
この論文では、さらなるトレーニングを行わずに、事前トレーニングされた拡散モデルの潜在空間内の意味属性を識別する方法を提案します。
ターゲットの意味領域のヤコビアンを非マスク領域に直交する低次元部分空間に投影することにより、私たちのアプローチは、局所的なマスク領域に対する正確な意味の発見と制御を容易にし、アノテーションの必要性を排除します。
私たちは複数のデータセットと拡散モデルのさまざまなアーキテクチャにわたって広範な実験を実施し、最先端のパフォーマンスを実現しました。
特に、いくつかの特定の顔属性については、私たちが提案する方法のパフォーマンスは教師付きアプローチのパフォーマンスを上回り、局所的な画像プロパティの編集における優れた能力を示しています。

要約(オリジナル)

Although diffusion models have achieved remarkable success in the field of image generation, their latent space remains under-explored. Current methods for identifying semantics within latent space often rely on external supervision, such as textual information and segmentation masks. In this paper, we propose a method to identify semantic attributes in the latent space of pre-trained diffusion models without any further training. By projecting the Jacobian of the targeted semantic region into a low-dimensional subspace which is orthogonal to the non-masked regions, our approach facilitates precise semantic discovery and control over local masked areas, eliminating the need for annotations. We conducted extensive experiments across multiple datasets and various architectures of diffusion models, achieving state-of-the-art performance. In particular, for some specific face attributes, the performance of our proposed method even surpasses that of supervised approaches, demonstrating its superior ability in editing local image properties.

arxiv情報

著者 Zixiang Li,Yue Song,Renshuai Tao,Xiaohong Jia,Yao Zhao,Wei Wang
発行日 2024-12-17 13:46:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク