要約
自動運転では、レーダーとカメラのマルチモーダルな融合による環境認識が、精度、完全性、および堅牢性を向上させるために不可欠です。
このホワイト ペーパーでは、ミリ波 (MMW) レーダーとカメラ センサー フュージョンを 3D オブジェクト検出に利用する方法に焦点を当てています。
鳥瞰図 (BEV) の下で特徴レベルの融合を実現し、より良い特徴表現を実現する新しい方法を提案します。
まず、レーダーの特徴が一時的な蓄積によって増強され、レーダーの特徴を抽出するために時空間エンコーダーに送信されます。
一方、さまざまな空間スケールに適応するマルチスケール画像 2D 特徴は、画像バックボーンおよびネック モデルによって取得されます。
次に、画像の特徴は、設計されたビュー トランスフォーマーを使用して BEV に変換されます。
さらに、この作業では、マルチモーダル機能を、それぞれポイント融合と ROI 融合と呼ばれる 2 段階の融合モデルと融合します。
最後に、検出ヘッドがオブジェクト カテゴリと 3D 位置を回帰します。
実験結果は、提案された方法が、挑戦的な nuScenes データセットで最も重要な検出メトリック、平均精度 (mAP) および nuScenes 検出スコア (NDS) の下で最先端のパフォーマンスを実現することを示しています。
要約(オリジナル)
Environmental perception with multi-modal fusion of radar and camera is crucial in autonomous driving to increase the accuracy, completeness, and robustness. This paper focuses on how to utilize millimeter-wave (MMW) radar and camera sensor fusion for 3D object detection. A novel method which realizes the feature-level fusion under bird-eye view (BEV) for a better feature representation is proposed. Firstly, radar features are augmented with temporal accumulation and sent to a temporal-spatial encoder for radar feature extraction. Meanwhile, multi-scale image 2D features which adapt to various spatial scales are obtained by image backbone and neck model. Then, image features are transformed to BEV with the designed view transformer. In addition, this work fuses the multi-modal features with a two-stage fusion model called point fusion and ROI fusion, respectively. Finally, a detection head regresses objects category and 3D locations. Experimental results demonstrate that the proposed method realizes the state-of-the-art performance under the most important detection metrics, mean average precision (mAP) and nuScenes detection score (NDS) on the challenging nuScenes dataset.
arxiv情報
著者 | Taohua Zhou,Yining Shi,Junjie Chen,Kun Jiang,Mengmeng Yang,Diange Yang |
発行日 | 2022-08-25 13:21:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google