要約
忠実度の高いビュー合成の生成は、ロボットのナビゲーションとインタラクションに不可欠であるが、特に屋内環境やリアルタイムシナリオでは、依然として困難である。既存の手法は、学習とレンダリングの両方に多大な計算資源を必要とすることが多く、また、幾何学的構造が不十分なため、最適な3D表現が得られないことが多い。これらの限界に対処するために、我々は、ニューラル屋内再構成と新しいビュー合成の品質と効率の両方を向上させるために、入手しやすい形状プリオールを利用する新しいアプローチであるVoxNeRFを紹介する。我々は、ボクセルに符号化された形状事前分布を基に、最も関連性の高い光線セグメントに選択的に計算リソースを割り当てる、効率的なボクセルガイドサンプリング手法を提案し、学習時間とレンダリング時間を大幅に短縮する。さらに、ロバストな深度損失を組み込むことで、疎なビュー設定における再構成とレンダリングの品質を向上させる。本アプローチは、ScanNetとScanNet++を用いた広範な実験により検証され、VoxNeRFは既存の最先端手法を凌駕し、屋内没入型補間および外挿設定の新たなベンチマークを確立した。
要約(オリジナル)
The generation of high-fidelity view synthesis is essential for robotic navigation and interaction but remains challenging, particularly in indoor environments and real-time scenarios. Existing techniques often require significant computational resources for both training and rendering, and they frequently result in suboptimal 3D representations due to insufficient geometric structuring. To address these limitations, we introduce VoxNeRF, a novel approach that utilizes easy-to-obtain geometry priors to enhance both the quality and efficiency of neural indoor reconstruction and novel view synthesis. We propose an efficient voxel-guided sampling technique that allocates computational resources selectively to the most relevant segments of rays based on a voxel-encoded geometry prior, significantly reducing training and rendering time. Additionally, we incorporate a robust depth loss to improve reconstruction and rendering quality in sparse view settings. Our approach is validated with extensive experiments on ScanNet and ScanNet++ where VoxNeRF outperforms existing state-of-the-art methods and establishes a new benchmark for indoor immersive interpolation and extrapolation settings.
arxiv情報
著者 | Sen Wang,Qing Cheng,Stefano Gasperini,Wei Zhang,Shun-Cheng Wu,Niclas Zeller,Daniel Cremers,Nassir Navab |
発行日 | 2024-12-04 18:32:57+00:00 |
arxivサイト | arxiv_id(pdf) |