要約
ニューラルサーフェス再構成は、マルチビュー画像に基づいて正確な3Dサーフェスを再構成することを目的としている。ニューラルボリュームレンダリングに基づくこれまでの手法は、MLPを用いた完全陰解法モデルの学習がほとんどであり、通常、1つのシーンに対して数時間の学習が必要である。最近の取り組みでは、学習可能なボクセルグリッドを用いて重要な情報を記憶することにより、最適化を加速させる陽的なボリューム表現を模索している。しかし、既存のボクセルベースの手法は、SDFベースのボリュームレンダリングスキームと組み合わせた場合でも、細かいジオメトリの再構成に苦労することが多い。これは、1)ボクセルグリッドは、微細形状の学習を容易にする色と形状の依存関係を壊す傾向がある、2)制約の少ないボクセルグリッドは空間的な一貫性を欠き、ローカルミニマムに弱い、ことが理由であることを明らかにする。本研究では、効率的かつ高精度なボクセルベース表面再構成アプローチであるVoxurfを提案する。Voxurfは、1) コヒーレントな粗い形状を獲得し、細かい形状を順次復元する2段階の学習手順、2) 色と形状の依存性を維持するデュアルカラーネットワーク、3) ボクセル間の情報伝達を促す階層的形状特徴など、いくつかの重要な設計により前述の問題に対処している。広範な実験により、Voxurfは高効率と高品質を同時に達成することが示された。DTUベンチマークにおいて、Voxurfは従来の完全陰解法と比較して、20倍の学習速度で高い再構成品質を達成した。
要約(オリジナル)
Neural surface reconstruction aims to reconstruct accurate 3D surfaces based on multi-view images. Previous methods based on neural volume rendering mostly train a fully implicit model with MLPs, which typically require hours of training for a single scene. Recent efforts explore the explicit volumetric representation to accelerate the optimization via memorizing significant information with learnable voxel grids. However, existing voxel-based methods often struggle in reconstructing fine-grained geometry, even when combined with an SDF-based volume rendering scheme. We reveal that this is because 1) the voxel grids tend to break the color-geometry dependency that facilitates fine-geometry learning, and 2) the under-constrained voxel grids lack spatial coherence and are vulnerable to local minima. In this work, we present Voxurf, a voxel-based surface reconstruction approach that is both efficient and accurate. Voxurf addresses the aforementioned issues via several key designs, including 1) a two-stage training procedure that attains a coherent coarse shape and recovers fine details successively, 2) a dual color network that maintains color-geometry dependency, and 3) a hierarchical geometry feature to encourage information propagation across voxels. Extensive experiments show that Voxurf achieves high efficiency and high quality at the same time. On the DTU benchmark, Voxurf achieves higher reconstruction quality with a 20x training speedup compared to previous fully implicit methods.
arxiv情報
著者 | Tong Wu,Jiaqi Wang,Xingang Pan,Xudong Xu,Christian Theobalt,Ziwei Liu,Dahua Lin |
発行日 | 2022-10-04 12:24:43+00:00 |
arxivサイト | arxiv_id(pdf) |