SLCF-Net: Sequential LiDAR-Camera Fusion for Semantic Scene Completion using a 3D Recurrent U-Net

要約

LiDAR とカメラ データを順次融合するセマンティック シーン コンプリーション (SSC) タスクの新しいアプローチである SLCF-Net を紹介します。
一連の RGB 画像とまばらな LiDAR 測定値から、シーン内の欠落しているジオメトリとセマンティクスを共同で推定します。
画像は、事前トレーニングされた 2D U-Net によって意味的にセグメント化され、Depth Anything を利用した深度条件付きパイプラインから事前の密な深度が推定されます。
2D 画像の特徴を 3D シーンのボリュームに関連付けるために、ガウス減衰深度事前投影 (GDP) を導入します。
このモジュールは、事前深度を中心としたガウス減衰関数を使用して、視線に沿って 2D フィーチャを 3D ボリュームに投影します。
ボリューム セマンティクスは 3D U-Net によって計算されます。
センサーの動きを使用して隠れた 3D U-Net 状態を伝播し、時間的一貫性を確保するために新しい損失を設計します。
SemanticKITTI データセットに対するアプローチを評価し、主要な SSC アプローチと比較します。
SLCF-Net は、すべての SSC メトリックにおいて優れており、優れた時間的一貫性を示します。

要約(オリジナル)

We introduce SLCF-Net, a novel approach for the Semantic Scene Completion (SSC) task that sequentially fuses LiDAR and camera data. It jointly estimates missing geometry and semantics in a scene from sequences of RGB images and sparse LiDAR measurements. The images are semantically segmented by a pre-trained 2D U-Net and a dense depth prior is estimated from a depth-conditioned pipeline fueled by Depth Anything. To associate the 2D image features with the 3D scene volume, we introduce Gaussian-decay Depth-prior Projection (GDP). This module projects the 2D features into the 3D volume along the line of sight with a Gaussian-decay function, centered around the depth prior. Volumetric semantics is computed by a 3D U-Net. We propagate the hidden 3D U-Net state using the sensor motion and design a novel loss to ensure temporal consistency. We evaluate our approach on the SemanticKITTI dataset and compare it with leading SSC approaches. The SLCF-Net excels in all SSC metrics and shows great temporal consistency.

arxiv情報

著者 Helin Cao,Sven Behnke
発行日 2024-03-13 18:12:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク