要約
拡散モデル (DM) の成功にもかかわらず、潜在空間の完全な理解はまだ不足しています。
GAN を使用した画像編集は潜在的なスペースに基づいていますが、DM はテキスト プロンプトなどの条件の編集に依存しています。
DM の潜在変数 $\mathbf{x}_t \in \mathcal{X}$ の解釈可能な編集方向を発見する教師なしの方法を提示します。
私たちの方法は、$\mathcal{X}$ と U-Net の中間特徴マップ $\mathcal{H}$ の間にリーマン幾何学を採用して、$\mathcal{X}$ の幾何学的構造を深く理解します。
発見されたセマンティックな潜在的な方向は、ほとんどが絡み合っていない属性の変化をもたらし、さまざまなサンプル間でグローバルに一貫しています。
さらに、前のタイムステップで編集すると大まかな属性が編集されますが、後のタイムステップで編集すると高頻度の詳細に焦点が当てられます。
$\mathcal{X}$ が曲がった多様体であることを示すために、サンプル間の線分の曲率を定義します。
さまざまなベースラインとデータセットでの実験は、安定拡散でもこの方法の有効性を示しています。
私たちのソースコードは、将来の研究者のために公開されます。
要約(オリジナル)
Despite the success of diffusion models (DMs), we still lack a thorough understanding of their latent space. While image editing with GANs builds upon latent space, DMs rely on editing the conditions such as text prompts. We present an unsupervised method to discover interpretable editing directions for the latent variables $\mathbf{x}_t \in \mathcal{X}$ of DMs. Our method adopts Riemannian geometry between $\mathcal{X}$ and the intermediate feature maps $\mathcal{H}$ of the U-Nets to provide a deep understanding over the geometrical structure of $\mathcal{X}$. The discovered semantic latent directions mostly yield disentangled attribute changes, and they are globally consistent across different samples. Furthermore, editing in earlier timesteps edits coarse attributes, while ones in later timesteps focus on high-frequency details. We define the curvedness of a line segment between samples to show that $\mathcal{X}$ is a curved manifold. Experiments on different baselines and datasets demonstrate the effectiveness of our method even on Stable Diffusion. Our source code will be publicly available for the future researchers.
arxiv情報
著者 | Yong-Hyun Park,Mingi Kwon,Junghyo Jo,Youngjung Uh |
発行日 | 2023-02-24 05:54:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google