要約
セマンティック画像合成、つまりユーザーが提供したセマンティックラベルマップから画像を生成することは、生成される画像のコンテンツと空間レイアウトの両方を制御できるため、重要な条件付き画像生成タスクです。
拡散モデルは生成画像モデリングの最先端を押し上げてきましたが、その推論プロセスの反復的な性質により、計算量が多くなります。
GAN などの他のアプローチは、生成に 1 つのフィードフォワード パスのみを必要とするため、より効率的ですが、大規模で多様なデータセットでは画質が低下する傾向があります。
この研究では、画像分類などのタスク用に事前にトレーニングされた特徴バックボーン ネットワークを利用して、非常に現実的な画像を生成する、セマンティック画像合成用の新しいクラスの GAN 識別器を提案します。
また、より優れたコンテキスト モデリングを備えた新しいジェネレーター アーキテクチャも導入し、クロスアテンションを使用して潜在変数にノイズを注入することで、より多様な画像が生成されます。
DP-SIMS と名付けた私たちのモデルは、画質と ADE-20K、COCO-Stuff、Cityscapes の入力ラベル マップとの一貫性の点で最先端の結果を達成し、最近の普及モデルを上回っていますが、2 つの
推論のための計算が桁違いに少なくなります。
要約(オリジナル)
Semantic image synthesis, i.e., generating images from user-provided semantic label maps, is an important conditional image generation task as it allows to control both the content as well as the spatial layout of generated images. Although diffusion models have pushed the state of the art in generative image modeling, the iterative nature of their inference process makes them computationally demanding. Other approaches such as GANs are more efficient as they only need a single feed-forward pass for generation, but the image quality tends to suffer on large and diverse datasets. In this work, we propose a new class of GAN discriminators for semantic image synthesis that generates highly realistic images by exploiting feature backbone networks pre-trained for tasks such as image classification. We also introduce a new generator architecture with better context modeling and using cross-attention to inject noise into latent variables, leading to more diverse generated images. Our model, which we dub DP-SIMS, achieves state-of-the-art results in terms of image quality and consistency with the input label maps on ADE-20K, COCO-Stuff, and Cityscapes, surpassing recent diffusion models while requiring two orders of magnitude less compute for inference.
arxiv情報
著者 | Tariq Berrada,Jakob Verbeek,Camille Couprie,Karteek Alahari |
発行日 | 2024-01-08 13:30:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google