Visual Chain-of-Thought Diffusion Models

要約

条件付き画像拡散モデルの最近の進歩は驚くべきものでした。これは、テキスト記述、シーン レイアウト、またはスケッチに基づいて条件付けされたモデルについて話している場合でも当てはまります。
無条件の画像拡散モデルも改善されていますが、クラス ラベルなどの低次元の特徴を条件とする拡散モデルと同様に、遅れをとっています。
2段階のサンプリング手順を使用して、条件付きモデルと無条件モデルの間のギャップを埋めることを提案します。
最初の段階では、画像のセマンティック コンテンツを記述する埋め込みをサンプリングします。
第 2 段階では、この埋め込みで調整された画像をサンプリングし、埋め込みを破棄します。
そうすることで、無条件生成タスクで条件付き拡散モデルの力を活用できます。これにより、標準の無条件生成と比較して FID が 25 ~ 50% 向上することが示されます。

要約(オリジナル)

Recent progress with conditional image diffusion models has been stunning, and this holds true whether we are speaking about models conditioned on a text description, a scene layout, or a sketch. Unconditional image diffusion models are also improving but lag behind, as do diffusion models which are conditioned on lower-dimensional features like class labels. We propose to close the gap between conditional and unconditional models using a two-stage sampling procedure. In the first stage we sample an embedding describing the semantic content of the image. In the second stage we sample the image conditioned on this embedding and then discard the embedding. Doing so lets us leverage the power of conditional diffusion models on the unconditional generation task, which we show improves FID by 25-50% compared to standard unconditional generation.

arxiv情報

著者 William Harvey,Frank Wood
発行日 2023-03-28 17:53:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク