Variation-Aware Semantic Image Synthesis

要約

セマンティック イメージ合成 (SIS) は、特定の条件付きセマンティック レイアウトに合わせてフォトリアリスティックなイメージを生成することを目的としており、近年大幅な改善が見られています。
画像レベルの多様性についてはかなり議論されてきましたが、現在のアルゴリズムにはクラスレベルのモード崩壊が広く存在しています。
したがって、クラス間およびクラス内の変動で構成される、変動を認識した、よりフォトリアリスティックな画像を実現するための SIS の新しい要件を宣言します。
クラス間変動は異なるセマンティック クラス間の多様性であり、クラス内変動は 1 つのクラス内の多様性を強調します。
分析を通じて、現在のアルゴリズムはクラス間変動をとらえどころのないほど受け入れていることがわかりましたが、クラス内変動はまだ十分ではありません。
さらに、より高いクラス内変動、セマンティック ノイズ、および位置コードを使用して、変動に対応したセマンティック イメージ合成 (VASIS) を実現する 2 つの簡単な方法を紹介します。
私たちの方法をいくつかの最先端のアルゴリズムと組み合わせ、実験結果は、私たちのモデルがより自然な画像を生成し、対応するモデルよりもわずかに優れた FID および/または mIoU を達成することを示しています。
私たちのコードとモデルは公開されます。

要約(オリジナル)

Semantic image synthesis (SIS) aims to produce photorealistic images aligning to given conditional semantic layout and has witnessed a significant improvement in recent years. Although the diversity in image-level has been discussed heavily, class-level mode collapse widely exists in current algorithms. Therefore, we declare a new requirement for SIS to achieve more photorealistic images, variation-aware, which consists of inter- and intra-class variation. The inter-class variation is the diversity between different semantic classes while the intra-class variation stresses the diversity inside one class. Through analysis, we find that current algorithms elusively embrace the inter-class variation but the intra-class variation is still not enough. Further, we introduce two simple methods to achieve variation-aware semantic image synthesis (VASIS) with a higher intra-class variation, semantic noise and position code. We combine our method with several state-of-the-art algorithms and the experimental result shows that our models generate more natural images and achieves slightly better FIDs and/or mIoUs than the counterparts. Our codes and models will be publicly available.

arxiv情報

著者 Mingle Xu,Jaehwan Lee,Sook Yoon,Hyongsuk Kim,Dong Sun Park
発行日 2023-01-25 12:35:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク