Understanding the Latent Space of Diffusion Models through the Lens of Riemannian Geometry

要約

拡散モデル (DM) の成功にもかかわらず、その潜在空間についてはまだ完全な理解が不足しています。
潜在空間 $\mathbf{x}_t \in \mathcal{X}$ を理解するために、幾何学的観点から分析します。
具体的には、プルバックメトリックを利用して $\mathcal{X}$ のローカル潜在基底と、DM の中間特徴マップである $\mathcal{H}$ の対応するローカルタンジェント基底を見つけます。
発見された潜在基盤により、潜在空間トラバーサルによる教師なし画像編集機能が可能になります。
発見された構造を2つの観点から調査します。
まず、幾何学的構造が拡散タイムステップにわたってどのように進化するかを調べます。
分析を通じて、1) モデルは生成プロセスの初期段階で低周波成分に焦点を当て、後で高周波の詳細に調整することを示します。
2) 初期のタイムステップでは、異なるサンプルが同様の接線空間を共有します。
3) DM がトレーニングしたデータセットが単純であればあるほど、各タイムステップの接線空間の一貫性が高くなります。
次に、安定拡散におけるテキスト条件付けに基づいて幾何学的構造がどのように変化するかを調査します。
結果は、1) 同様のプロンプトが同等の接線空間を生成することを示しています。
2) モデルは、後のタイムステップではテキスト条件にあまり依存しません。
私たちの知る限り、この論文は $\mathbf{x}$ 空間トラバーサルによる画像編集を初めて提示し、DM の潜在構造の徹底的な分析を提供します。

要約(オリジナル)

Despite the success of diffusion models (DMs), we still lack a thorough understanding of their latent space. To understand the latent space $\mathbf{x}_t \in \mathcal{X}$, we analyze them from a geometrical perspective. Specifically, we utilize the pullback metric to find the local latent basis in $\mathcal{X}$ and their corresponding local tangent basis in $\mathcal{H}$, the intermediate feature maps of DMs. The discovered latent basis enables unsupervised image editing capability through latent space traversal. We investigate the discovered structure from two perspectives. First, we examine how geometric structure evolves over diffusion timesteps. Through analysis, we show that 1) the model focuses on low-frequency components early in the generative process and attunes to high-frequency details later; 2) At early timesteps, different samples share similar tangent spaces; and 3) The simpler datasets that DMs trained on, the more consistent the tangent space for each timestep. Second, we investigate how the geometric structure changes based on text conditioning in Stable Diffusion. The results show that 1) similar prompts yield comparable tangent spaces; and 2) the model depends less on text conditions in later timesteps. To the best of our knowledge, this paper is the first to present image editing through $\mathbf{x}$-space traversal and provide thorough analyses of the latent structure of DMs.

arxiv情報

著者 Yong-Hyun Park,Mingi Kwon,Jaewoong Choi,Junghyo Jo,Youngjung Uh
発行日 2023-07-24 15:06:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク