SparseBEV: High-Performance Sparse 3D Object Detection from Multi-Camera Videos

要約

BEV (Bird’s Eye View) 空間におけるカメラベースの 3D オブジェクト検出は、ここ数年で大きな注目を集めています。
密な検出器は通常、最初に密な BEV 特徴を構築し、次に BEV 空間で物体検出を実行する 2 段階のパイプラインに従いますが、これには複雑なビュー変換と高い計算コストが伴います。
一方、スパース検出器は、明示的な高密度 BEV 機能構築を行わずにクエリベースのパラダイムに従いますが、高密度検出器よりもパフォーマンスが劣ります。
この論文では、この性能ギャップを軽減する鍵は、BEV と画像空間の両方における検出器の適応性であることがわかりました。
この目標を達成するために、私たちは、密な対応物よりも優れたパフォーマンスを発揮する完全に疎な 3D オブジェクト検出器である SparseBEV を提案します。
SparseBEV には 3 つの主要な設計が含まれています。それらは、(1) BEV 空間内の適応受容野を備えた集合特徴へのスケール適応型セルフ アテンション、(2) クエリのガイダンスの下でサンプリング位置を生成する適応型時空間サンプリング、および (3) 適応型
混合して、クエリからの動的重みを使用してサンプリングされた特徴をデコードします。
nuScenes のテスト分割では、SparseBEV は 67.5 NDS という最先端のパフォーマンスを達成しました。
val 分割では、SparseBEV は 23.5 FPS のリアルタイム推論速度を維持しながら、55.8 NDS を達成します。
コードは https://github.com/MCG-NJU/SparseBEV で入手できます。

要約(オリジナル)

Camera-based 3D object detection in BEV (Bird’s Eye View) space has drawn great attention over the past few years. Dense detectors typically follow a two-stage pipeline by first constructing a dense BEV feature and then performing object detection in BEV space, which suffers from complex view transformations and high computation cost. On the other side, sparse detectors follow a query-based paradigm without explicit dense BEV feature construction, but achieve worse performance than the dense counterparts. In this paper, we find that the key to mitigate this performance gap is the adaptability of the detector in both BEV and image space. To achieve this goal, we propose SparseBEV, a fully sparse 3D object detector that outperforms the dense counterparts. SparseBEV contains three key designs, which are (1) scale-adaptive self attention to aggregate features with adaptive receptive field in BEV space, (2) adaptive spatio-temporal sampling to generate sampling locations under the guidance of queries, and (3) adaptive mixing to decode the sampled features with dynamic weights from the queries. On the test split of nuScenes, SparseBEV achieves the state-of-the-art performance of 67.5 NDS. On the val split, SparseBEV achieves 55.8 NDS while maintaining a real-time inference speed of 23.5 FPS. Code is available at https://github.com/MCG-NJU/SparseBEV.

arxiv情報

著者 Haisong Liu,Yao Teng,Tao Lu,Haiguang Wang,Limin Wang
発行日 2023-09-05 11:38:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク