Frido: Feature Pyramid Diffusion for Complex Scene Image Synthesis

要約

拡散モデル (DM) は、高品質の画像合成の大きな可能性を示しています。
ただし、複雑なシーンを含む画像を作成する場合、画像のグローバル構造とオブジェクトの詳細の両方を適切に記述する方法は依然として困難な作業です。
この論文では、画像合成のためのマルチスケールの粗いノイズ除去プロセスを実行する機能ピラミッド拡散モデルである Frido を紹介します。
私たちのモデルは、入力画像をスケール依存のベクトル量子化された特徴に分解し、続いて画像出力を生成するための粗いものから細かいものへのゲーティングを行います。
上記のマルチスケール表現学習段階では、テキスト、シーン グラフ、画像レイアウトなどの追加の入力条件をさらに活用できます。
したがって、Frido は、条件付きまたはクロスモダリティの画像合成にも適用できます。
テキストから画像への合成、レイアウトから画像へ、シーングラフから画像へ、ラベルから画像へ、さまざまな無条件および条件付きの画像生成タスクについて広範な実験を行っています。
より具体的には、COCO と OpenImages のレイアウトから画像へ、COCO と Visual Genome でのシーングラフから画像へ、COCO でのラベルから画像への 5 つのベンチマークで最先端の FID スコアを達成しました。
.
コードは https://github.com/davidhalladay/Frido で入手できます。

要約(オリジナル)

Diffusion models (DMs) have shown great potential for high-quality image synthesis. However, when it comes to producing images with complex scenes, how to properly describe both image global structures and object details remains a challenging task. In this paper, we present Frido, a Feature Pyramid Diffusion model performing a multi-scale coarse-to-fine denoising process for image synthesis. Our model decomposes an input image into scale-dependent vector quantized features, followed by a coarse-to-fine gating for producing image output. During the above multi-scale representation learning stage, additional input conditions like text, scene graph, or image layout can be further exploited. Thus, Frido can be also applied for conditional or cross-modality image synthesis. We conduct extensive experiments over various unconditioned and conditional image generation tasks, ranging from text-to-image synthesis, layout-to-image, scene-graph-to-image, to label-to-image. More specifically, we achieved state-of-the-art FID scores on five benchmarks, namely layout-to-image on COCO and OpenImages, scene-graph-to-image on COCO and Visual Genome, and label-to-image on COCO. Code is available at https://github.com/davidhalladay/Frido.

arxiv情報

著者 Wan-Cyuan Fan,Yen-Chun Chen,DongDong Chen,Yu Cheng,Lu Yuan,Yu-Chiang Frank Wang
発行日 2022-08-29 17:37:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク