Towards Efficient 3D Object Detection with Knowledge Distillation

要約

3D オブジェクト検出の大幅な進歩にもかかわらず、高度な 3D 検出器は、多くの場合、計算オーバーヘッドが大きくなります。
この目的のために、一般的なピラーベースおよびボクセルベースの検出器に焦点を当て、効率的な 3D オブジェクト検出器を開発するための知識蒸留 (KD) の可能性を探ります。
モデルの圧縮と入力解像度の削減の観点から、精度と効率の間の適切なトレードオフを備えた学生モデル。
次に、適切に構築された 6 つの教師と生徒のペアに対する 3D オブジェクト検出のために 2D ドメインで開発された既存の KD メソッドを評価するためのベンチマークを構築します。
さらに、教師の分類応答によって決定されるいくつかの重要な位置のみで KD を実行する強化されたロジット KD 法と、重みの継承を通じて教師モデルの特徴抽出能力を生徒に移すことを容易にする教師主導の生徒モデルの初期化を組み込んだ、改善された KD パイプラインを提案します。
.
最後に、Waymo データセットで広範な実験を行います。
最高のパフォーマンスを発揮するモデルは $65.75\%$ LEVEL 2 mAPH を達成し、その教師モデルを上回り、$44\%$ の教師フロップしか必要としません。
私たちの最も効率的なモデルは、NVIDIA A100 で 51 FPS を実行します。これは、PointPillar よりも $2.2\times$ 高速であり、精度もさらに高くなります。
コードは \url{https://github.com/CVMI-Lab/SparseKD} で入手できます。

要約(オリジナル)

Despite substantial progress in 3D object detection, advanced 3D detectors often suffer from heavy computation overheads. To this end, we explore the potential of knowledge distillation (KD) for developing efficient 3D object detectors, focusing on popular pillar- and voxel-based detectors.In the absence of well-developed teacher-student pairs, we first study how to obtain student models with good trade offs between accuracy and efficiency from the perspectives of model compression and input resolution reduction. Then, we build a benchmark to assess existing KD methods developed in the 2D domain for 3D object detection upon six well-constructed teacher-student pairs. Further, we propose an improved KD pipeline incorporating an enhanced logit KD method that performs KD on only a few pivotal positions determined by teacher classification response, and a teacher-guided student model initialization to facilitate transferring teacher model’s feature extraction ability to students through weight inheritance. Finally, we conduct extensive experiments on the Waymo dataset. Our best performing model achieves $65.75\%$ LEVEL 2 mAPH, surpassing its teacher model and requiring only $44\%$ of teacher flops. Our most efficient model runs 51 FPS on an NVIDIA A100, which is $2.2\times$ faster than PointPillar with even higher accuracy. Code is available at \url{https://github.com/CVMI-Lab/SparseKD}.

arxiv情報

著者 Jihan Yang,Shaoshuai Shi,Runyu Ding,Zhe Wang,Xiaojuan Qi
発行日 2022-10-14 02:06:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク