Sparse-to-Dense LiDAR Point Generation by LiDAR-Camera Fusion for 3D Object Detection

要約

データの疎性という固有の制限により、LiDAR センサーのみに依存する 3D オブジェクト検出では、長距離にあるオブジェクトを正確に検出することが依然として重要な課題となります。
この問題に対処するために、我々は、豊富なセマンティック情報を含む 2D 画像特徴を融合することで LiDAR 点群データを再構築し、検出精度を向上させる追加点を生成する新しいフレームワークである LiDAR-Camera Augmentation Network (LCANet) を提案します。
LCANet は、画像特徴を 3D 空間に投影し、セマンティック情報を点群データに統合することにより、LiDAR センサーとカメラからのデータを融合します。
次に、この融合されたデータはエンコードされて、意味情報と空間情報の両方を含む 3D フィーチャが生成され、バウンディング ボックス予測の前に最終点を再構築するためにさらに調整されます。
この融合により、まばらな点で表されることが多い、長距離の物体の検出における LiDAR の弱点が効果的に補われます。
さらに、元のデータセットには多くのオブジェクトがまばらであり、点生成の効果的な監視が困難になっているため、点群補完ネットワークを使用して、ネットワーク内の密な点群の生成を監視する完全な点群データセットを作成します。
KITTI と Waymo データセットに関する広範な実験により、LCANet が、特にまばらで遠くにある物体の検出において、既存のモデルよりも大幅に優れていることが実証されました。

要約(オリジナル)

Accurately detecting objects at long distances remains a critical challenge in 3D object detection when relying solely on LiDAR sensors due to the inherent limitations of data sparsity. To address this issue, we propose the LiDAR-Camera Augmentation Network (LCANet), a novel framework that reconstructs LiDAR point cloud data by fusing 2D image features, which contain rich semantic information, generating additional points to improve detection accuracy. LCANet fuses data from LiDAR sensors and cameras by projecting image features into the 3D space, integrating semantic information into the point cloud data. This fused data is then encoded to produce 3D features that contain both semantic and spatial information, which are further refined to reconstruct final points before bounding box prediction. This fusion effectively compensates for LiDAR’s weakness in detecting objects at long distances, which are often represented by sparse points. Additionally, due to the sparsity of many objects in the original dataset, which makes effective supervision for point generation challenging, we employ a point cloud completion network to create a complete point cloud dataset that supervises the generation of dense point clouds in our network. Extensive experiments on the KITTI and Waymo datasets demonstrate that LCANet significantly outperforms existing models, particularly in detecting sparse and distant objects.

arxiv情報

著者 Minseung Lee,Seokha Moon,Seung Joon Lee,Jinkyu Kim
発行日 2024-09-24 16:20:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク