CRKD: Enhanced Camera-Radar Object Detection with Cross-modality Knowledge Distillation

要約

自動運転のための 3D 物体検出の分野では、LiDAR とカメラ (LC) の融合が最高のパフォーマンスを発揮するセンサー構成です。
それでも、LiDAR は比較的コストが高いため、この技術を民生用自動車に採用するのは困難です。
あるいは、カメラとレーダーは現在すでに道路を走行している車両に一般的に搭載されていますが、カメラとレーダー (CR) 融合のパフォーマンスは LC 融合に劣ります。
この研究では、新しいクロスモダリティ KD フレームワークを使用して LC 検出器と CR 検出器の間の性能ギャップを埋めるために、カメラ レーダー知識蒸留 (CRKD) を提案します。
効果的な知識の蒸留を可能にする共有特徴空間として Bird’s-Eye-View (BEV) 表現を使用します。
独自のクロスモダリティ KD パスに対応するために、学生が教師モデルから重要な特徴を学習できるように 4 つの蒸留損失を提案します。
提案されている CRKD フレームワークの有効性を実証するために、nuScenes データセットに関する広範な評価を示します。
CRKD のプロジェクト ページは https://song-jingyu.github.io/CRKD です。

要約(オリジナル)

In the field of 3D object detection for autonomous driving, LiDAR-Camera (LC) fusion is the top-performing sensor configuration. Still, LiDAR is relatively high cost, which hinders adoption of this technology for consumer automobiles. Alternatively, camera and radar are commonly deployed on vehicles already on the road today, but performance of Camera-Radar (CR) fusion falls behind LC fusion. In this work, we propose Camera-Radar Knowledge Distillation (CRKD) to bridge the performance gap between LC and CR detectors with a novel cross-modality KD framework. We use the Bird’s-Eye-View (BEV) representation as the shared feature space to enable effective knowledge distillation. To accommodate the unique cross-modality KD path, we propose four distillation losses to help the student learn crucial features from the teacher model. We present extensive evaluations on the nuScenes dataset to demonstrate the effectiveness of the proposed CRKD framework. The project page for CRKD is https://song-jingyu.github.io/CRKD.

arxiv情報

著者 Lingjun Zhao,Jingyu Song,Katherine A. Skinner
発行日 2024-03-28 02:39:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク