VoxGRAF: Fast 3D-Aware Image Synthesis with Sparse Voxel Grids

要約

最先端の3D対応の生成モデルは、座標ベースのMLPに依存して3D放射輝度フィールドをパラメーター化します。
印象的な結果を示しながら、各光線に沿ったすべてのサンプルについてMLPをクエリすると、レンダリングが遅くなります。
したがって、既存のアプローチでは、低解像度のフィーチャマップをレンダリングし、アップサンプリングネットワークで処理して、最終的な画像を取得することがよくあります。
効率的ではありますが、ニューラルレンダリングは、カメラのポーズを変更するとジオメトリや外観が不要に変化するように、視点とコンテンツが絡み合うことがよくあります。
ボクセルベースの新しいビュー合成の最近の結果に動機付けられて、この論文では、高速で3D整合性のある生成モデリングのためのスパースボクセルグリッド表現の有用性を調査します。
私たちの結果は、スパースボクセルグリッドを漸進的な成長、自由空間の剪定、および適切な正則化と組み合わせると、モノリシックMLPを実際に3D畳み込みに置き換えることができることを示しています。
シーンのコンパクトな表現を取得し、より高いボクセル解像度にスケーリングできるようにするために、モデルは前景オブジェクト(3Dでモデル化)を背景(2Dでモデル化)から解きほぐします。
既存のアプローチとは対照的に、私たちの方法では、完全な3Dシーンを生成するために1回のフォワードパスのみが必要です。
したがって、任意の視点からの効率的なレンダリングが可能になると同時に、高い視覚的忠実度で3Dの一貫した結果が得られます。

要約(オリジナル)

State-of-the-art 3D-aware generative models rely on coordinate-based MLPs to parameterize 3D radiance fields. While demonstrating impressive results, querying an MLP for every sample along each ray leads to slow rendering. Therefore, existing approaches often render low-resolution feature maps and process them with an upsampling network to obtain the final image. Albeit efficient, neural rendering often entangles viewpoint and content such that changing the camera pose results in unwanted changes of geometry or appearance. Motivated by recent results in voxel-based novel view synthesis, we investigate the utility of sparse voxel grid representations for fast and 3D-consistent generative modeling in this paper. Our results demonstrate that monolithic MLPs can indeed be replaced by 3D convolutions when combining sparse voxel grids with progressive growing, free space pruning and appropriate regularization. To obtain a compact representation of the scene and allow for scaling to higher voxel resolutions, our model disentangles the foreground object (modeled in 3D) from the background (modeled in 2D). In contrast to existing approaches, our method requires only a single forward pass to generate a full 3D scene. It hence allows for efficient rendering from arbitrary viewpoints while yielding 3D consistent results with high visual fidelity.

arxiv情報

著者 Katja Schwarz,Axel Sauer,Michael Niemeyer,Yiyi Liao,Andreas Geiger
発行日 2022-06-17 15:24:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク