Generative Multiplane Images: Making a 2D GAN 3D-Aware

要約

既存の2DGANを3D対応にするために本当に必要なものは何ですか?
この質問に答えるために、従来のGAN、つまりStyleGANv2をできるだけ変更しません。
絶対に必要な変更は2つだけであることがわかります。1)深度を条件としたアルファマップのセットを生成するマルチプレーン画像スタイルジェネレータブランチ。
2)ポーズ条件付きディスクリミネーター。
生成された出力を「生成マルチプレーン画像」(GMPI)と呼び、そのレンダリングが高品質であるだけでなく、ビューの一貫性が保証されていることを強調します。これにより、GMPIは以前の多くの作品とは異なります。
重要なことに、アルファマップの数は動的に調整でき、トレーニングと推論の間で異なる可能性があり、メモリの懸念を軽減し、$ 1024 ^2$の解像度で半日未満でGMPIの高速トレーニングを可能にします。
私たちの調査結果は、FFHQ、AFHQv2、およびMetFacesを含む3つの挑戦的で一般的な高解像度データセット間で一貫しています。

要約(オリジナル)

What is really needed to make an existing 2D GAN 3D-aware? To answer this question, we modify a classical GAN, i.e., StyleGANv2, as little as possible. We find that only two modifications are absolutely necessary: 1) a multiplane image style generator branch which produces a set of alpha maps conditioned on their depth; 2) a pose-conditioned discriminator. We refer to the generated output as a ‘generative multiplane image’ (GMPI) and emphasize that its renderings are not only high-quality but also guaranteed to be view-consistent, which makes GMPIs different from many prior works. Importantly, the number of alpha maps can be dynamically adjusted and can differ between training and inference, alleviating memory concerns and enabling fast training of GMPIs in less than half a day at a resolution of $1024^2$. Our findings are consistent across three challenging and common high-resolution datasets, including FFHQ, AFHQv2, and MetFaces.

arxiv情報

著者 Xiaoming Zhao,Fangchang Ma,David Güera,Zhile Ren,Alexander G. Schwing,Alex Colburn
発行日 2022-07-21 17:50:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク