RaCFormer: Towards High-Quality 3D Object Detection via Query-based Radar-Camera Fusion

要約

レーダーカメラ融合トランス(Racformer)を提案して、次の洞察により3Dオブジェクト検出の精度を高めます。
屋外3Dシーンの知覚におけるレーダーカメラの融合は、画像間変換によって覆われています。ピクセルの深さが正確に推定されない場合、BEV特徴の素朴な組み合わせは実際に整列されていない視覚コンテンツを統合します。
この問題を回避するために、鳥瞰図(BEV)と元の画像ビューの両方からインスタンス関連機能の適応サンプリングを可能にするクエリベースのフレームワークを提案します。
さらに、クエリの初期化の最適化とBEVの表現能力の強化という2つの重要な設計により、システムのパフォーマンスを向上させます。
前者については、オブジェクトクエリの初期化を改良し、クエリ密度の距離ベースの調整を可能にするために、極座標に適応循環分布を導入します。
後者については、最初にレーダー誘導深度ヘッドを組み込んで、画像ビューからBEVへの変換を改良します。
その後、レーダーのドップラー効果を活用することに焦点を当て、暗黙の動的キャッチャーを導入してBEV内の側頭要素をキャプチャします。
ヌスセンとビューオブデルフ(VOD)データセットに関する広範な実験は、設計のメリットを検証します。
驚くべきことに、私たちの方法は、ヌスケンで64.9%のMAPと70.2%NDSの優れた結果を達成しています。
Racformerは、VODデータセットの最先端のパフォーマンスも確保しています。
コードはhttps://github.com/cxmomo/racformerで入手できます。

要約(オリジナル)

We propose Radar-Camera fusion transformer (RaCFormer) to boost the accuracy of 3D object detection by the following insight. The Radar-Camera fusion in outdoor 3D scene perception is capped by the image-to-BEV transformation–if the depth of pixels is not accurately estimated, the naive combination of BEV features actually integrates unaligned visual content. To avoid this problem, we propose a query-based framework that enables adaptive sampling of instance-relevant features from both the bird’s-eye view (BEV) and the original image view. Furthermore, we enhance system performance by two key designs: optimizing query initialization and strengthening the representational capacity of BEV. For the former, we introduce an adaptive circular distribution in polar coordinates to refine the initialization of object queries, allowing for a distance-based adjustment of query density. For the latter, we initially incorporate a radar-guided depth head to refine the transformation from image view to BEV. Subsequently, we focus on leveraging the Doppler effect of radar and introduce an implicit dynamic catcher to capture the temporal elements within the BEV. Extensive experiments on nuScenes and View-of-Delft (VoD) datasets validate the merits of our design. Remarkably, our method achieves superior results of 64.9% mAP and 70.2% NDS on nuScenes. RaCFormer also secures the state-of-the-art performance on the VoD dataset. Code is available at https://github.com/cxmomo/RaCFormer.

arxiv情報

著者 Xiaomeng Chu,Jiajun Deng,Guoliang You,Yifan Duan,Houqiang Li,Yanyong Zhang
発行日 2025-03-24 16:47:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク