What You See is What You GAN: Rendering Every Pixel for High-Fidelity Geometry in 3D GANs


3D対応Generative Adversarial Networks(GAN)は、ニューラル・ボリューム・レンダリングにより、2D画像のコレクションからマルチビューに対応した画像やシーンの3D形状を生成する学習において、目覚ましい進歩を示してきた。しかし、ボリュームレンダリングにおける高密度のサンプリングには多大なメモリコストと計算コストがかかるため、3D GANはパッチベースの学習を採用するか、後処理で2D超解像を行う低解像度レンダリングを採用せざるを得ませんでした。その結果、3D GANは、2D画像に存在する豊富な3Dジオメトリを完全に解決できていない。本研究では、ニューラル・ボリューム・レンダリングをネイティブ2D画像のはるかに高い解像度に拡張する技術を提案する。我々のアプローチは、3D GANトレーニングのためのニューラル・レンダリングを、最大5倍少ない深度サンプルを用いて高速化するための、学習ベースのサンプラーを採用している。これにより、2Dでの超解像処理を後処理することなく、学習と推論中に全解像画像の「すべてのピクセルをレンダリング」することが可能になる。高品質な表面形状を学習する我々の戦略と組み合わせることで、我々の手法は、後処理による超解像に依存するベースラインと同等の画質を維持しながら、高解像度の3Dジオメトリと厳密にビューコンシステントな画像を合成する。我々は、FFHQとAFHQにおいて最先端の3D幾何学的品質を実証し、3D GANにおける3D形状の教師なし学習の新たな基準を設定する。


3D-aware Generative Adversarial Networks (GANs) have shown remarkable progress in learning to generate multi-view-consistent images and 3D geometries of scenes from collections of 2D images via neural volume rendering. Yet, the significant memory and computational costs of dense sampling in volume rendering have forced 3D GANs to adopt patch-based training or employ low-resolution rendering with post-processing 2D super resolution, which sacrifices multiview consistency and the quality of resolved geometry. Consequently, 3D GANs have not yet been able to fully resolve the rich 3D geometry present in 2D images. In this work, we propose techniques to scale neural volume rendering to the much higher resolution of native 2D images, thereby resolving fine-grained 3D geometry with unprecedented detail. Our approach employs learning-based samplers for accelerating neural rendering for 3D GAN training using up to 5 times fewer depth samples. This enables us to explicitly ‘render every pixel’ of the full-resolution image during training and inference without post-processing superresolution in 2D. Together with our strategy to learn high-quality surface geometry, our method synthesizes high-resolution 3D geometry and strictly view-consistent images while maintaining image quality on par with baselines relying on post-processing super resolution. We demonstrate state-of-the-art 3D gemetric quality on FFHQ and AFHQ, setting a new standard for unsupervised learning of 3D shapes in 3D GANs.


著者 Alex Trevithick,Matthew Chan,Towaki Takikawa,Umar Iqbal,Shalini De Mello,Manmohan Chandraker,Ravi Ramamoorthi,Koki Nagano
発行日 2024-01-04 18:50:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.GR, cs.LG パーマリンク