Spherical Frustum Sparse Convolution Network for LiDAR Point Cloud Semantic Segmentation

要約

LiDAR 点群セマンティック セグメンテーションにより、ロボットは周囲環境の詳細なセマンティック情報を取得できます。
最近、多くの作品が点群を 2D 画像上に投影し、LiDAR 点群セマンティック セグメンテーションに 2D 畳み込みニューラル ネットワーク (CNN) またはビジョン トランスフォーマーを採用しています。
ただし、複数の点を同じ 2D 位置に投影できますが、保存できる点は 1 つだけであるため、以前の 2D 画像ベースのセグメンテーション方法では避けられない量子化情報の損失が発生します。
量子化情報の損失を避けるために、本論文では新しい球面錐台構造を提案します。
同じ 2D 位置に投影された点は、球錐台内に保存されます。
さらに、球面錐台のメモリ効率の高いハッシュベースの表現を提案します。
ハッシュベースの表現を通じて、球面錐台に格納された点をそれぞれ畳み込み、サンプリングする球面錐台スパース畳み込み (SFC) と錐台高速点サンプリング (F2PS) を提案します。
最後に、量子化された情報損失なしに、LiDAR 点群セマンティック セグメンテーションに 2D CNN を採用する球面錐台スパース畳み込みネットワーク (SFCNet) を紹介します。
SemanticKITTI および nuScenes データセットに関する広範な実験により、当社の SFCNet が従来の球面投影に基づく 2D 画像ベースのセマンティック セグメンテーション手法よりも優れていることが実証されました。
コードは https://github.com/IRMVLab/SFCNet で入手できます。

要約(オリジナル)

LiDAR point cloud semantic segmentation enables the robots to obtain fine-grained semantic information of the surrounding environment. Recently, many works project the point cloud onto the 2D image and adopt the 2D Convolutional Neural Networks (CNNs) or vision transformer for LiDAR point cloud semantic segmentation. However, since more than one point can be projected onto the same 2D position but only one point can be preserved, the previous 2D image-based segmentation methods suffer from inevitable quantized information loss. To avoid quantized information loss, in this paper, we propose a novel spherical frustum structure. The points projected onto the same 2D position are preserved in the spherical frustums. Moreover, we propose a memory-efficient hash-based representation of spherical frustums. Through the hash-based representation, we propose the Spherical Frustum sparse Convolution (SFC) and Frustum Fast Point Sampling (F2PS) to convolve and sample the points stored in spherical frustums respectively. Finally, we present the Spherical Frustum sparse Convolution Network (SFCNet) to adopt 2D CNNs for LiDAR point cloud semantic segmentation without quantized information loss. Extensive experiments on the SemanticKITTI and nuScenes datasets demonstrate that our SFCNet outperforms the 2D image-based semantic segmentation methods based on conventional spherical projection. Codes will be available at https://github.com/IRMVLab/SFCNet.

arxiv情報

著者 Yu Zheng,Guangming Wang,Jiuming Liu,Marc Pollefeys,Hesheng Wang
発行日 2024-10-28 13:54:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク