CRAFT: Camera-Radar 3D Object Detection with Spatio-Contextual Fusion Transformer


カメラおよびレーダー センサーは、LiDAR と比較して、コスト、信頼性、およびメンテナンスの面で大きな利点があります。
ここでは、3D オブジェクト検出のためにカメラとレーダーの空間特性とコンテキスト特性の両方を効果的に活用する、新しい提案レベルの早期融合アプローチを提案します。
私たちの融合フレームワークは、最初に画像提案を極座標系のレーダー ポイントに関連付けて、座標系と空間プロパティの間の不一致を効率的に処理します。
これを第 1 段階として使用すると、次の連続するクロスアテンション ベースのフィーチャ フュージョン レイヤーが、カメラとレーダーの間で空間コンテキスト情報を適応的に交換し、堅牢で注意深いフュージョンにつながります。
当社のカメラ レーダー フュージョン アプローチは、nuScenes テスト セットで最先端の 41.1% mAP および 52.3% NDS を達成します。これは、カメラのみのベースラインよりも 8.7 ポイントおよび 10.8 ポイント高く、


Camera and radar sensors have significant advantages in cost, reliability, and maintenance compared to LiDAR. Existing fusion methods often fuse the outputs of single modalities at the result-level, called the late fusion strategy. This can benefit from using off-the-shelf single sensor detection algorithms, but late fusion cannot fully exploit the complementary properties of sensors, thus having limited performance despite the huge potential of camera-radar fusion. Here we propose a novel proposal-level early fusion approach that effectively exploits both spatial and contextual properties of camera and radar for 3D object detection. Our fusion framework first associates image proposal with radar points in the polar coordinate system to efficiently handle the discrepancy between the coordinate system and spatial properties. Using this as a first stage, following consecutive cross-attention based feature fusion layers adaptively exchange spatio-contextual information between camera and radar, leading to a robust and attentive fusion. Our camera-radar fusion approach achieves the state-of-the-art 41.1% mAP and 52.3% NDS on the nuScenes test set, which is 8.7 and 10.8 points higher than the camera-only baseline, as well as yielding competitive performance on the LiDAR method.


著者 Youngseok Kim,Sanmin Kim,Jun Won Choi,Dongsuk Kum
発行日 2022-09-14 10:25:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク