ViiNeuS: Volumetric Initialization for Implicit Neural Surface reconstruction of urban scenes with limited image overlap

要約

最近、ニューラル暗黙的表面表現法は、3D再構成において素晴らしい結果を示している。しかし、既存の手法では、走行シーンのサイズが大きく、非常に複雑であること、視覚的観察の重複が限られていることから、走行シーンの再構成に苦労している。したがって、正確な再構成を達成するためには、LiDARのような追加的な監視データ、強力な幾何学的事前分布、および長い学習時間が必要である。このような制限に対処するため、我々は、2Dストリートビュー画像から大規模な走行シーンを再構成するために、符号付き距離場を効率的に初期化する新しいハイブリッド暗黙的サーフェス学習法であるViiNeuSを発表する。ViiNeuSのハイブリッド・アーキテクチャは、シーンの体積密度を表すフィールドと、路面までの符号付き距離を表すフィールドの2つを別々にモデル化する。都市の屋外運転シナリオを正確に再現するために、自己教師付き確率的密度推定に依存する新しいボリュームレンダリング戦略を導入し、表面近傍の点をサンプリングして、ボリューム表現から表面表現へと段階的に移行する。我々の解決策は、同時並行的な手法と比較して、シーンの幾何学的な事前情報に依存することなく、符号付き距離場の適切かつ高速な初期化を可能にする。4つの屋外走行データセットで広範な実験を行うことで、ViiNeuSが様々な都市シーンの正確で詳細な3D表面表現を学習できることを示す。

要約(オリジナル)

Neural implicit surface representation methods have recently shown impressive 3D reconstruction results. However, existing solutions struggle to reconstruct driving scenes due to their large size, highly complex nature and their limited visual observation overlap. Hence, to achieve accurate reconstructions, additional supervision data such as LiDAR, strong geometric priors, and long training times are required. To tackle such limitations, we present ViiNeuS, a new hybrid implicit surface learning method that efficiently initializes the signed distance field to reconstruct large driving scenes from 2D street view images. ViiNeuS’s hybrid architecture models two separate implicit fields: one representing the volumetric density of the scene, and another one representing the signed distance to the surface. To accurately reconstruct urban outdoor driving scenarios, we introduce a novel volume-rendering strategy that relies on self-supervised probabilistic density estimation to sample points near the surface and transition progressively from volumetric to surface representation. Our solution permits a proper and fast initialization of the signed distance field without relying on any geometric prior on the scene, compared to concurrent methods. By conducting extensive experiments on four outdoor driving datasets, we show that ViiNeuS can learn an accurate and detailed 3D surface representation of various urban scene while being two times faster to train compared to previous state-of-the-art solutions.

arxiv情報

著者 Hala Djeghim,Nathan Piasco,Moussab Bennehar,Luis Roldão,Dzmitry Tsishkou,Désiré Sidibé
発行日 2025-01-03 15:18:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク