要約
この研究では、マルチビュー画像セマンティクスとレーダーおよびカメラ ポイント機能を統合する、3D 認識用の新しいスパース フュージョン トランスフォーマーである SpaRC を紹介します。
レーダーとカメラのモダリティの融合は、自動運転システムの効率的な認識パラダイムとして浮上しました。
従来のアプローチは深度推定に高密度鳥瞰図 (BEV) ベースのアーキテクチャを利用していますが、現代のクエリベースのトランスフォーマーは、オブジェクト中心の方法論によるカメラのみの検出に優れています。
ただし、これらのクエリベースのアプローチでは、暗黙的な深度モデリングにより、誤検出と位置特定の精度に限界があります。
当社は、3 つの主要な貢献を通じてこれらの課題に対処します。(1) クロスモーダル特徴位置合わせのためのスパース錐台融合 (SFF)、(2) 正確な物体の位置特定のための距離適応型レーダー アグリゲーション (RAR)、および (3) ローカル セルフ アテンション (
LSA) を使用して、焦点を絞ったクエリを集約します。
大量の計算を必要とする BEV グリッド レンダリングを必要とする既存の方法とは対照的に、SpaRC はエンコードされたポイント フィーチャを直接操作し、効率と精度が大幅に向上します。
nuScenes および TruckScenes ベンチマークの経験的評価では、SpaRC が既存の高密度 BEV ベースおよびスパース クエリベースの検出器よりも大幅に優れていることが実証されています。
私たちのメソッドは、67.1 NDS および 63.1 AMOTA という最先端のパフォーマンス指標を達成します。
コードと事前トレーニングされたモデルは https://github.com/phi-wol/sparc で入手できます。
要約(オリジナル)
In this work, we present SpaRC, a novel Sparse fusion transformer for 3D perception that integrates multi-view image semantics with Radar and Camera point features. The fusion of radar and camera modalities has emerged as an efficient perception paradigm for autonomous driving systems. While conventional approaches utilize dense Bird’s Eye View (BEV)-based architectures for depth estimation, contemporary query-based transformers excel in camera-only detection through object-centric methodology. However, these query-based approaches exhibit limitations in false positive detections and localization precision due to implicit depth modeling. We address these challenges through three key contributions: (1) sparse frustum fusion (SFF) for cross-modal feature alignment, (2) range-adaptive radar aggregation (RAR) for precise object localization, and (3) local self-attention (LSA) for focused query aggregation. In contrast to existing methods requiring computationally intensive BEV-grid rendering, SpaRC operates directly on encoded point features, yielding substantial improvements in efficiency and accuracy. Empirical evaluations on the nuScenes and TruckScenes benchmarks demonstrate that SpaRC significantly outperforms existing dense BEV-based and sparse query-based detectors. Our method achieves state-of-the-art performance metrics of 67.1 NDS and 63.1 AMOTA. The code and pretrained models are available at https://github.com/phi-wol/sparc.
arxiv情報
著者 | Philipp Wolters,Johannes Gilg,Torben Teepe,Fabian Herzog,Felix Fent,Gerhard Rigoll |
発行日 | 2024-11-29 17:17:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google