Neural Rendering based Urban Scene Reconstruction for Autonomous Driving

要約

高密度 3D 再構成には、自動アノテーション検証、マルチモーダル データ拡張、LiDAR を欠いているシステムへのグラウンド トゥルース アノテーションの提供、自動ラベリングの精度の向上など、自動運転における多くの用途があります。
LiDAR は高精度ですがまばらな深度を提供しますが、カメラ画像は密な深度を推定できますが、特に長距離ではノイズが多くなります。
この論文では、両方のセンサーの長所を活用し、ニューラル インプリシット サーフェスと放射フィールドを組み合わせたフレームワークを使用したマルチモーダル 3D シーンの再構成を提案します。
特に、私たちの方法は高密度で正確な 3D 構造を推定し、符号付き距離フィールドに基づいて暗黙的なマップ表現を作成します。これはさらに RGB 画像や深度マップにレンダリングできます。
学習された符号付き距離フィールドからメッシュを抽出し、オクルージョンに基づいて選別することができます。
動的オブジェクトは、3D オブジェクト検出モデルを使用して、サンプリング中にオンザフライで効率的にフィルタリングされます。
当社は、困難な自動車シーンにおいて定性的および定量的な結果を実証します。

要約(オリジナル)

Dense 3D reconstruction has many applications in automated driving including automated annotation validation, multimodal data augmentation, providing ground truth annotations for systems lacking LiDAR, as well as enhancing auto-labeling accuracy. LiDAR provides highly accurate but sparse depth, whereas camera images enable estimation of dense depth but noisy particularly at long ranges. In this paper, we harness the strengths of both sensors and propose a multimodal 3D scene reconstruction using a framework combining neural implicit surfaces and radiance fields. In particular, our method estimates dense and accurate 3D structures and creates an implicit map representation based on signed distance fields, which can be further rendered into RGB images, and depth maps. A mesh can be extracted from the learned signed distance field and culled based on occlusion. Dynamic objects are efficiently filtered on the fly during sampling using 3D object detection models. We demonstrate qualitative and quantitative results on challenging automotive scenes.

arxiv情報

著者 Shihao Shen,Louis Kerofsky,Varun Ravi Kumar,Senthil Yogamani
発行日 2024-02-09 23:20:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク