CRPlace: Camera-Radar Fusion with BEV Representation for Place Recognition

要約

カメラとレーダーのデータからの相補的な特性の統合は、3D オブジェクト検出における効果的なアプローチとして浮上しました。
しかし、このような融合ベースの方法は、自律システムにとって同様に重要なタスクである場所認識に関しては未開発のままです。
場所の認識がクエリシーンと対応する候補シーンの間の類似性に依存していることを考えると、シーンの静止した背景がタスクにおいて重要な役割を果たすことが期待されます。
そのため、現在よく設計された 3D オブジェクト検出用のカメラとレーダーの融合手法は、主に動的な前景オブジェクトに焦点を当てているため、場所認識ではほとんど効果を発揮できません。
この論文では、正確な場所認識のために多視点画像とレーダー点群から背景に注意を払うグローバル記述子を生成するために、CRPlace と呼ばれる背景に注意を払うカメラとレーダーの融合ベースの方法を提案します。
静止した背景の特徴を効果的に抽出するために、カメラの BEV 機能とレーダーのダイナミック ポイントを利用して背景に注意を払うマスクを生成する適応モジュールを設計します。
背景マスクのガイダンスを利用して、カメラ BEV 機能の背景情報とレーダー BEV 機能の間の包括的な空間相互作用を促進する、双方向クロスアテンションベースの空間融合戦略を考案します。
CRPlace は、初のカメラとレーダーの融合ベースの場所認識ネットワークとして、nuScenes データセットで徹底的に評価されています。
結果は、私たちのアルゴリズムが包括的な指標セット全体でさまざまなベースライン手法を上回っていることを示しています (再現率 @1 は 91.2% に達します)。

要約(オリジナル)

The integration of complementary characteristics from camera and radar data has emerged as an effective approach in 3D object detection. However, such fusion-based methods remain unexplored for place recognition, an equally important task for autonomous systems. Given that place recognition relies on the similarity between a query scene and the corresponding candidate scene, the stationary background of a scene is expected to play a crucial role in the task. As such, current well-designed camera-radar fusion methods for 3D object detection can hardly take effect in place recognition because they mainly focus on dynamic foreground objects. In this paper, a background-attentive camera-radar fusion-based method, named CRPlace, is proposed to generate background-attentive global descriptors from multi-view images and radar point clouds for accurate place recognition. To extract stationary background features effectively, we design an adaptive module that generates the background-attentive mask by utilizing the camera BEV feature and radar dynamic points. With the guidance of a background mask, we devise a bidirectional cross-attention-based spatial fusion strategy to facilitate comprehensive spatial interaction between the background information of the camera BEV feature and the radar BEV feature. As the first camera-radar fusion-based place recognition network, CRPlace has been evaluated thoroughly on the nuScenes dataset. The results show that our algorithm outperforms a variety of baseline methods across a comprehensive set of metrics (recall@1 reaches 91.2%).

arxiv情報

著者 Shaowei Fu,Yifan Duan,Yao Li,Chengzhen Meng,Yingjie Wang,Jianmin Ji,Yanyong Zhang
発行日 2024-03-22 13:12:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク