BEV-SAN: Accurate BEV 3D Object Detection via Slice Attention Networks


鳥瞰図(BEV)3D物体検出は、自律走行システムにとって重要なマルチビュー技術である。近年、カメラ特徴抽出、BEV特徴構築、タスクヘッドという3つの要素からなる類似のパラダイムに従った多くの研究が提案されている。このうち、BEV特徴量の構築は、2Dタスクと比較してBEVに特化したものである。既存の手法では、多視点カメラの特徴を平坦化グリッドに集約し、BEV特徴を構築しています。しかし、BEV空間を高さ方向に平坦化すると、異なる高さの情報量を持つ特徴を強調することができません。例えば、バリアは低い高さに位置し、トラックは高い高さに位置している。本論文では、異なる高さの本質的な特徴を利用するために、BEV Slice Attention Network (BEV-SAN)と名付けた新しい手法を提案する。BEV空間を平坦化する代わりに、まず高さ方向に沿ってサンプリングし、グローバルおよびローカルなBEVスライスを構築する。次に、BEVスライスの特徴をカメラの特徴から集約し、アテンション機構によりマージする。最後に、マージされたローカルおよびグローバルBEV特徴を変換器により融合し、タスクヘッド用の最終特徴マップを生成する。局所BEVスライスの目的は、情報量の多い高さを強調することである。そのために、我々はさらにLiDARの統計的分布を利用してローカルスライスの高さを決定するLiDARガイド付きサンプリング戦略を提案する。一様なサンプリングと比較して、LiDARガイド付きサンプリングは、より多くの情報量の多い高さを決定することができます。BEV-SANの有効性を実証するために、詳細な実験を行います。コードを公開する予定です。


Bird’s-Eye-View (BEV) 3D Object Detection is a crucial multi-view technique for autonomous driving systems. Recently, plenty of works are proposed, following a similar paradigm consisting of three essential components, i.e., camera feature extraction, BEV feature construction, and task heads. Among the three components, BEV feature construction is BEV-specific compared with 2D tasks. Existing methods aggregate the multi-view camera features to the flattened grid in order to construct the BEV feature. However, flattening the BEV space along the height dimension fails to emphasize the informative features of different heights. For example, the barrier is located at a low height while the truck is located at a high height. In this paper, we propose a novel method named BEV Slice Attention Network (BEV-SAN) for exploiting the intrinsic characteristics of different heights. Instead of flattening the BEV space, we first sample along the height dimension to build the global and local BEV slices. Then, the features of BEV slices are aggregated from the camera features and merged by the attention mechanism. Finally, we fuse the merged local and global BEV features by a transformer to generate the final feature map for task heads. The purpose of local BEV slices is to emphasize informative heights. In order to find them, we further propose a LiDAR-guided sampling strategy to leverage the statistical distribution of LiDAR to determine the heights of local slices. Compared with uniform sampling, LiDAR-guided sampling can determine more informative heights. We conduct detailed experiments to demonstrate the effectiveness of BEV-SAN. Code will be released.


著者 Xiaowei Chi,Jiaming Liu,Ming Lu,Rongyu Zhang,Zhaoqing Wang,Yandong Guo,Shanghang Zhang
発行日 2022-12-02 15:14:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, DeepL

カテゴリー: cs.CV パーマリンク