Enhanced Controllability of Diffusion Models via Feature Disentanglement and Realism-Enhanced Sampling Methods

要約

拡散モデルが有望なパフォーマンスを示しているため、拡散モデルの制御性を向上させるために多くの努力が払われてきました。
ただし、もつれのない潜在空間を持つように拡散モデルをトレーニングする方法や、サンプリング プロセス中にもつれの解けた状態を自然に組み込む方法は十分に検討されていません。
この論文では、拡散モデルの特徴分解のためのトレーニング フレームワーク (FDiff) を紹介します。
さらに、拡散モデルの現実性を高め、制御性も向上させる 2 つのサンプリング方法を提案します。
簡潔に言うと、空間コンテンツ マスクと平坦化スタイルの埋め込みという 2 つの潜在的な特徴を条件として拡散モデルをトレーニングします。
拡散モデルのノイズ除去プロセスの帰納的バイアスを利用して、コンテンツ機能のポーズ/レイアウト情報とスタイル機能のセマンティック/スタイル情報をエンコードします。
サンプリング方法に関しては、まず、条件付き独立性の仮定を破ることによってコンポーザブル拡散モデル (GCDM) を一般化し、条件付き入力間の依存性を考慮します。これは、実験で現実的な生成に効果的であることが示されています。
2 番目に、パフォーマンスをさらに向上させるために、コンテンツとスタイルの特徴に対するタイムステップ依存の重みスケジューリングを提案します。
また、画像操作や画像変換において、既存の方法と比較して、提案した方法の制御性が優れていることも観察されました。

要約(オリジナル)

As Diffusion Models have shown promising performance, a lot of efforts have been made to improve the controllability of Diffusion Models. However, how to train Diffusion Models to have the disentangled latent spaces and how to naturally incorporate the disentangled conditions during the sampling process have been underexplored. In this paper, we present a training framework for feature disentanglement of Diffusion Models (FDiff). We further propose two sampling methods that can boost the realism of our Diffusion Models and also enhance the controllability. Concisely, we train Diffusion Models conditioned on two latent features, a spatial content mask, and a flattened style embedding. We rely on the inductive bias of the denoising process of Diffusion Models to encode pose/layout information in the content feature and semantic/style information in the style feature. Regarding the sampling methods, we first generalize Composable Diffusion Models (GCDM) by breaking the conditional independence assumption to allow for some dependence between conditional inputs, which is shown to be effective in realistic generation in our experiments. Second, we propose timestep-dependent weight scheduling for content and style features to further improve the performance. We also observe better controllability of our proposed methods compared to existing methods in image manipulation and image translation.

arxiv情報

著者 Wonwoong Cho,Hareesh Ravi,Midhun Harikumar,Vinh Khuc,Krishna Kumar Singh,Jingwan Lu,David I. Inouye,Ajinkya Kale
発行日 2024-07-23 17:32:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR パーマリンク