Less is More: Reducing Task and Model Complexity for 3D Point Cloud Semantic Segmentation

要約

3D LiDAR 点群データの利用可能性は近年大幅に増加していますが、注釈は依然として高価で時間がかかるため、自動運転などのアプリケーション ドメインでの半教師付きセマンティック セグメンテーション手法の需要につながっています。
既存の作業では、計算コストを犠牲にして、比較的大きなセグメンテーション バックボーン ネットワークを使用してセグメンテーションの精度を向上させることがよくあります。
さらに、必要な学習に必要なグラウンド トゥルース データの要件を減らすために均一なサンプリングを使用することが多く、パフォーマンスが最適化されていないことがよくあります。
これらの問題に対処するために、より小さなアーキテクチャを採用する新しいパイプラインを提案し、現代のアプローチと比較して優れたセグメンテーション精度を達成するために必要なグラウンド トゥルース アノテーションを少なくします。
これは、全体的なタスク パフォーマンスを維持しながら、ネットワーク パラメーター数を大幅に削減する新しい Sparse Depthwise Separable Convolution モジュールによって促進されます。
トレーニングデータを効果的にサブサンプリングするために、環境内のセンサーモーションの知識を活用してトレーニングデータフレームサンプルのより多様なサブセットを抽出する新しい時空間冗長フレームダウンサンプリング (ST-RFD) メソッドを提案します。
限られた注釈付きデータ サンプルの使用を活用するために、LiDAR 反射率によって通知されるソフト疑似ラベル法をさらに提案します。
私たちの方法は、SemanticKITTI (59.5@5%) および ScribbleKITTI (58.1@5%) ベンチマーク データセットで、ラベルの少ないデータを使用して、mIoU の点で現代の半教師あり作業よりも優れています。
限られたトレーニング データ (つまり、Less is More) で大幅なパフォーマンスの向上を示しながら、乗加算演算を実行します。

要約(オリジナル)

Whilst the availability of 3D LiDAR point cloud data has significantly grown in recent years, annotation remains expensive and time-consuming, leading to a demand for semi-supervised semantic segmentation methods with application domains such as autonomous driving. Existing work very often employs relatively large segmentation backbone networks to improve segmentation accuracy, at the expense of computational costs. In addition, many use uniform sampling to reduce ground truth data requirements for learning needed, often resulting in sub-optimal performance. To address these issues, we propose a new pipeline that employs a smaller architecture, requiring fewer ground-truth annotations to achieve superior segmentation accuracy compared to contemporary approaches. This is facilitated via a novel Sparse Depthwise Separable Convolution module that significantly reduces the network parameter count while retaining overall task performance. To effectively sub-sample our training data, we propose a new Spatio-Temporal Redundant Frame Downsampling (ST-RFD) method that leverages knowledge of sensor motion within the environment to extract a more diverse subset of training data frame samples. To leverage the use of limited annotated data samples, we further propose a soft pseudo-label method informed by LiDAR reflectivity. Our method outperforms contemporary semi-supervised work in terms of mIoU, using less labeled data, on the SemanticKITTI (59.5@5%) and ScribbleKITTI (58.1@5%) benchmark datasets, based on a 2.3x reduction in model parameters and 641x fewer multiply-add operations whilst also demonstrating significant performance improvement on limited training data (i.e., Less is More).

arxiv情報

著者 Li Li,Hubert P. H. Shum,Toby P. Breckon
発行日 2023-03-28 14:56:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク