Foundation Model assisted Weakly Supervised LiDAR Semantic Segmentation

要約

現在の点群セマンティック セグメンテーションは、十分なラベルが与えられた場合に大きな進歩を遂げています。
ただし、LiDAR 点群の高密度のアノテーションは依然として法外に高価で時間がかかり、増え続けるデータ量に追いつくことができません。
この論文では、散在点で画像に注釈を付けた後、SAM (Foundation モデル) を利用して画像のセマンティック セグメンテーション ラベルを生成することを提案します。
最後に、カメラと LiDAR の内部パラメータと外部パラメータを使用して画像のセグメンテーション ラベルを LiDAR 空間にマッピングすることで、点群セマンティック セグメンテーションのラベルを取得し、最初の作品である Scatter-KITTI と Scatter-nuScenes をリリースします。
弱監視点群セマンティック セグメンテーションに画像セグメンテーション ベースの SAM を利用します。
さらに、点群フィーチャに対するスパースアノテーションから得られる誤った擬似ラベルの影響を軽減するために、MM-ScatterNetと呼ばれる、LiDARセマンティックセグメンテーション用のマルチモーダル弱監視ネットワークを提案します。
このネットワークは、点群と画像モダリティの両方の特徴を組み合わせ、マルチモーダル特徴と点群特徴の間に一貫性制約を導入することで点群の表現学習を強化します。
SemanticKITTI データセットでは、アノテーション付きデータのわずか 0.02% を使用して完全教師ありパフォーマンスの 66\% を達成し、NuScenes データセットでは、ラベル付きポイントわずか 0.1% を使用して完全教師ありパフォーマンスの 95% を達成しています。

要約(オリジナル)

Current point cloud semantic segmentation has achieved great advances when given sufficient labels. However, the dense annotation of LiDAR point clouds remains prohibitively expensive and time-consuming, unable to keep up with the continuously growing volume of data. In this paper, we propose annotating images with scattered points, followed by utilizing SAM (a Foundation model) to generate semantic segmentation labels for the images. Finally, by mapping the segmentation labels of the images to the LiDAR space using the intrinsic and extrinsic parameters of the camera and LiDAR, we obtain labels for point cloud semantic segmentation, and release Scatter-KITTI and Scatter-nuScenes, which are the first works to utilize image segmentation-based SAM for weakly supervised point cloud semantic segmentation. Furthermore, to mitigate the influence of erroneous pseudo labels obtained from sparse annotations on point cloud features, we propose a multi-modal weakly supervised network for LiDAR semantic segmentation, called MM-ScatterNet. This network combines features from both point cloud and image modalities, enhancing the representation learning of point clouds by introducing consistency constraints between multi-modal features and point cloud features. On the SemanticKITTI dataset, we achieve 66\% of fully supervised performance using only 0.02% of annotated data, and on the NuScenes dataset, we achieve 95% of fully supervised performance using only 0.1% labeled points.

arxiv情報

著者 Yilong Chen,Zongyi Xu,xiaoshui Huang,Ruicheng Zhang,Xinqi Jiang,Xinbo Gao
発行日 2024-04-19 13:01:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク