Point-to-Voxel Knowledge Distillation for LiDAR Semantic Segmentation

要約

この記事では、LiDARセマンティックセグメンテーションのために、大規模な教師モデルからスリムな学生ネットワークに知識を抽出する問題について説明します。
以前の蒸留アプローチを直接使用すると、点群の固有の課題、つまり、希薄性、ランダム性、密度の変化により、結果が劣ります。
前述の問題に取り組むために、ポイントレベルとボクセルレベルの両方から隠された知識を転送するポイントツーボクセル知識蒸留(PVD)を提案します。
具体的には、最初にポイントワイズとボクセルワイズの両方の出力蒸留を活用して、スパース監視信号を補完します。
次に、構造情報をより有効に活用するために、点群全体をいくつかのスーパーボクセルに分割し、難易度を意識したサンプリング戦略を設計して、頻度の低いクラスと遠くのオブジェクトを含むスーパーボクセルをより頻繁にサンプリングします。
これらのスーパーボクセルについて、ポイント間およびボクセル間アフィニティ蒸留を提案します。ポイントとボクセル間の類似性情報は、学生モデルが周囲の環境の構造情報をより適切にキャプチャするのに役立ちます。
2つの人気のあるLiDARセグメンテーションベンチマーク、つまりnuScenesとSemanticKITTIで広範な実験を行います。
両方のベンチマークで、PVDは、3つの代表的なバックボーン、つまりCylinder3D、SPVNAS、およびMinkowskiNetで、以前の蒸留アプローチを一貫して大幅に上回っています。
特に、挑戦的なnuScenesおよびSemanticKITTIデータセットでは、私たちの方法は、競合するCylinder3Dモデルで約75%のMAC削減と2倍の高速化を達成し、公開されているすべてのアルゴリズムの中でSemanticKITTIリーダーボードで1位にランクされます。
私たちのコードはhttps://github.com/cardwing/Codes-for-PVKDで入手できます。

要約(オリジナル)

This article addresses the problem of distilling knowledge from a large teacher model to a slim student network for LiDAR semantic segmentation. Directly employing previous distillation approaches yields inferior results due to the intrinsic challenges of point cloud, i.e., sparsity, randomness and varying density. To tackle the aforementioned problems, we propose the Point-to-Voxel Knowledge Distillation (PVD), which transfers the hidden knowledge from both point level and voxel level. Specifically, we first leverage both the pointwise and voxelwise output distillation to complement the sparse supervision signals. Then, to better exploit the structural information, we divide the whole point cloud into several supervoxels and design a difficulty-aware sampling strategy to more frequently sample supervoxels containing less-frequent classes and faraway objects. On these supervoxels, we propose inter-point and inter-voxel affinity distillation, where the similarity information between points and voxels can help the student model better capture the structural information of the surrounding environment. We conduct extensive experiments on two popular LiDAR segmentation benchmarks, i.e., nuScenes and SemanticKITTI. On both benchmarks, our PVD consistently outperforms previous distillation approaches by a large margin on three representative backbones, i.e., Cylinder3D, SPVNAS and MinkowskiNet. Notably, on the challenging nuScenes and SemanticKITTI datasets, our method can achieve roughly 75% MACs reduction and 2x speedup on the competitive Cylinder3D model and rank 1st on the SemanticKITTI leaderboard among all published algorithms. Our code is available at https://github.com/cardwing/Codes-for-PVKD.

arxiv情報

著者 Yuenan Hou,Xinge Zhu,Yuexin Ma,Chen Change Loy,Yikang Li
発行日 2022-06-05 05:28:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク