要約
自動運転には、LIDARまたはカメラセンサーからの3Dオブジェクト検出タスクが不可欠です。
マルチモダリティフュージョンのパイオニアの試みは、追加のネットワーク設計とオーバーヘッドを犠牲にして、画像からの豊富なセマンティックテクスチャ情報でスパースライダーポイントクラウドを補完します。
この作業では、SPNetという名前の新しいセマンティックパッシングフレームワークを提案し、推論中に余分な計算コストをかけずに、豊富なコンテキストペインティングのガイダンスを使用して既存のLIDARベースの3D検出モデルのパフォーマンスを向上させます。
私たちの重要な設計は、最初にセマンティックペイントされた教師モデルをトレーニングすることによってグラウンドトゥルースラベル内の潜在的な有益なセマンティック知識を活用し、次に純粋なライダーネットワークをガイドして、さまざまな粒度の知識受け渡しモジュールを介してセマンティックペイントされた表現を学習することです:クラス
-ワイズパス、ピクセルワイズパス、インスタンスワイズパス。
実験結果は、提案されたSPNetが1〜5%のAPゲインでほとんどの既存の3D検出フレームワークとシームレスに連携し、KITTIテストベンチマークで新しい最先端の3D検出パフォーマンスを達成できることを示しています。
コードはhttps://github.com/jb892/SPNetで入手できます。
要約(オリジナル)
3D object detection task from lidar or camera sensors is essential for autonomous driving. Pioneer attempts at multi-modality fusion complement the sparse lidar point clouds with rich semantic texture information from images at the cost of extra network designs and overhead. In this work, we propose a novel semantic passing framework, named SPNet, to boost the performance of existing lidar-based 3D detection models with the guidance of rich context painting, with no extra computation cost during inference. Our key design is to first exploit the potential instructive semantic knowledge within the ground-truth labels by training a semantic-painted teacher model and then guide the pure-lidar network to learn the semantic-painted representation via knowledge passing modules at different granularities: class-wise passing, pixel-wise passing and instance-wise passing. Experimental results show that the proposed SPNet can seamlessly cooperate with most existing 3D detection frameworks with 1~5% AP gain and even achieve new state-of-the-art 3D detection performance on the KITTI test benchmark. Code is available at: https://github.com/jb892/SPNet.
arxiv情報
著者 | Bo Ju,Zhikang Zou,Xiaoqing Ye,Minyue Jiang,Xiao Tan,Errui Ding,Jingdong Wang |
発行日 | 2022-07-12 12:35:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google