SCP-Diff: Photo-Realistic Semantic Image Synthesis with Spatial-Categorical Joint Prior

要約

セマンティック画像合成 (SIS) はセンサー シミュレーションに有望です。
ただし、GAN に基づくこの分野の現在のベスト プラクティスは、望ましい品質レベルにまだ達していません。
潜在拡散モデルが画像生成において大幅な進歩を遂げているため、高密度制御機能の注目すべき手法である ControlNet を評価するよう求められています。
私たちの調査では、その結果に関する 2 つの主要な問題が明らかになりました。それは、大きな意味論的領域内に奇妙な下部構造が存在することと、内容が意味論的マスクと一致していないことです。
実証研究を通じて、これらの問題の原因が、ノイズが含まれたトレーニング データの分布と、推論段階で適用される標準正規事前分布との間の不一致であることを突き止めました。
この課題に対処するために、私たちは、推論用の空間、カテゴリカル、および新しい空間-カテゴリ結合事前分布を含む、SIS 用の特定のノイズ事前分布を開発しました。
私たちが SCP-Diff と名付けたこのアプローチは、Cityscapes で 10.53、ADE20K で 12.66 の FID を達成するという、並外れた結果をもたらしました。コードとモデルには、プロジェクト ページからアクセスできます。

要約(オリジナル)

Semantic image synthesis (SIS) shows good promises for sensor simulation. However, current best practices in this field, based on GANs, have not yet reached the desired level of quality. As latent diffusion models make significant strides in image generation, we are prompted to evaluate ControlNet, a notable method for its dense control capabilities. Our investigation uncovered two primary issues with its results: the presence of weird sub-structures within large semantic areas and the misalignment of content with the semantic mask. Through empirical study, we pinpointed the cause of these problems as a mismatch between the noised training data distribution and the standard normal prior applied at the inference stage. To address this challenge, we developed specific noise priors for SIS, encompassing spatial, categorical, and a novel spatial-categorical joint prior for inference. This approach, which we have named SCP-Diff, has yielded exceptional results, achieving an FID of 10.53 on Cityscapes and 12.66 on ADE20K.The code and models can be accessed via the project page.

arxiv情報

著者 Huan-ang Gao,Mingju Gao,Jiaju Li,Wenyi Li,Rong Zhi,Hao Tang,Hao Zhao
発行日 2024-03-14 17:59:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク