GeoGen: Geometry-Aware Generative Modeling via Signed Distance Functions

要約

単一ビューのコレクションから 3D ジオメトリと画像を合成するための新しい生成アプローチを導入します。
既存のアプローチのほとんどは、体積密度を予測して、マルチビューの一貫した画像をレンダリングします。
ニューラル放射フィールドを使用したボリューム レンダリングを採用することにより、生成されたジオメトリにノイズが多く制約がなくなり、出力メッシュの品質と実用性が制限されるという重要な制限が受け継がれます。
この問題に対処するために、エンドツーエンドの方法でトレーニングされた新しい SDF ベースの 3D 生成モデルである GeoGen を提案します。
最初に、体積密度を符号付き距離関数 (SDF) として再解釈します。
これにより、有効なメッシュを生成するために有用な事前分布を導入できるようになります。
ただし、これらの事前分布により、生成モデルが詳細を学習することができなくなり、現実世界のシナリオへのこの方法の適用可能性が制限されます。
この問題を軽減するために、変換を学習可能にし、レンダリングされた深度マップが SDF のゼロレベル セットと一致するように制約します。
敵対的トレーニングのレンズを通して、ネットワークが出力メッシュ上でより忠実度の高い詳細を生成することを奨励します。
評価のために、360 度のカメラ アングルからキャプチャされた人間のアバターの合成データセットを導入します。これは、多くの場合 3D の一貫性が欠如し、すべてのカメラ アングルをカバーしていない現実世界のデータセットによってもたらされる課題を克服するためです。
複数のデータセットに対する実験では、GeoGen が神経放射場に基づく以前の生成モデルよりも視覚的かつ定量的に優れたジオメトリを生成することがわかりました。

要約(オリジナル)

We introduce a new generative approach for synthesizing 3D geometry and images from single-view collections. Most existing approaches predict volumetric density to render multi-view consistent images. By employing volumetric rendering using neural radiance fields, they inherit a key limitation: the generated geometry is noisy and unconstrained, limiting the quality and utility of the output meshes. To address this issue, we propose GeoGen, a new SDF-based 3D generative model trained in an end-to-end manner. Initially, we reinterpret the volumetric density as a Signed Distance Function (SDF). This allows us to introduce useful priors to generate valid meshes. However, those priors prevent the generative model from learning details, limiting the applicability of the method to real-world scenarios. To alleviate that problem, we make the transformation learnable and constrain the rendered depth map to be consistent with the zero-level set of the SDF. Through the lens of adversarial training, we encourage the network to produce higher fidelity details on the output meshes. For evaluation, we introduce a synthetic dataset of human avatars captured from 360-degree camera angles, to overcome the challenges presented by real-world datasets, which often lack 3D consistency and do not cover all camera angles. Our experiments on multiple datasets show that GeoGen produces visually and quantitatively better geometry than the previous generative models based on neural radiance fields.

arxiv情報

著者 Salvatore Esposito,Qingshan Xu,Kacper Kania,Charlie Hewitt,Octave Mariotti,Lohit Petikam,Julien Valentin,Arno Onken,Oisin Mac Aodha
発行日 2024-06-06 17:00:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク