Semantic Image Synthesis with Semantically Coupled VQ-Model

要約

意味的画像合成は、何が生成されるかのガイダンスを可能にすることで、無条件の画像生成の制御を可能にする。我々は、画像を自動エンコードするために予め学習されたベクトル量子化モデル(VQ-model)から潜在空間を条件付きで合成する。自己回帰型トランスフォーマーは、条件付け潜在量と画像潜在量を別々に学習するのではなく、条件付け潜在量と画像潜在量を共同で学習することにより、トランスフォーマーモデルのモデル化能力を大幅に向上させることができることを見出した。我々の共同学習したVQモデルは、意味潜在と画像潜在の両方に対して、バニラVQモデルと同等の再構成性能を達成するが、自動エンコード段階で2つのモダリティを結びつけることが、自己回帰モデル性能を向上させる重要な要素であることが証明された。我々は、ADE20k、Cityscapes、COCO-Stuffといった一般的な意味画像データセットにおいて、我々のモデルが自己回帰モデルを用いた意味画像合成を向上させることを示す。

要約(オリジナル)

Semantic image synthesis enables control over unconditional image generation by allowing guidance on what is being generated. We conditionally synthesize the latent space from a vector quantized model (VQ-model) pre-trained to autoencode images. Instead of training an autoregressive Transformer on separately learned conditioning latents and image latents, we find that jointly learning the conditioning and image latents significantly improves the modeling capabilities of the Transformer model. While our jointly trained VQ-model achieves a similar reconstruction performance to a vanilla VQ-model for both semantic and image latents, tying the two modalities at the autoencoding stage proves to be an important ingredient to improve autoregressive modeling performance. We show that our model improves semantic image synthesis using autoregressive models on popular semantic image datasets ADE20k, Cityscapes and COCO-Stuff.

arxiv情報

著者 Stephan Alaniz,Thomas Hummel,Zeynep Akata
発行日 2022-09-06 14:37:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV パーマリンク