要約
最近の LSS ベースのマルチビュー 3D オブジェクト検出は、畳み込み検出器を介して Brid-Eye-View (BEV) の機能を処理することにより、大きな進歩を遂げました。
ただし、典型的な畳み込みでは、BEV 機能の放射状の対称性が無視され、検出器の最適化が難しくなります。
BEV 機能の固有のプロパティを保持し、最適化を容易にするために、方位角が等しい畳み込み (AeConv) と方位角が等しいアンカーを提案します。
AeConv のサンプリング グリッドは常に半径方向にあるため、方位不変の BEV の特徴を学習できます。
提案されたアンカーにより、検出ヘッドは方位角に関係のないターゲットの予測を学習できます。
さらに、カメラを分離した仮想深度を導入して、異なるカメラ固有パラメーターを使用して画像の深度予測を統一します。
得られた検出器は、Azimuth-equivariant Detector (AeDet) と呼ばれます。
nuScenes で広範な実験が行われ、AeDet は 62.0% NDS を達成し、PETRv2 (58.2% NDS) や BEVDepth (60.0% NDS) などの最近のマルチビュー 3D オブジェクト検出器を大幅に上回ります。
プロジェクトページ: https://fcjian.github.io/aedet.
要約(オリジナル)
Recent LSS-based multi-view 3D object detection has made tremendous progress, by processing the features in Brid-Eye-View (BEV) via the convolutional detector. However, the typical convolution ignores the radial symmetry of the BEV features and increases the difficulty of the detector optimization. To preserve the inherent property of the BEV features and ease the optimization, we propose an azimuth-equivariant convolution (AeConv) and an azimuth-equivariant anchor. The sampling grid of AeConv is always in the radial direction, thus it can learn azimuth-invariant BEV features. The proposed anchor enables the detection head to learn predicting azimuth-irrelevant targets. In addition, we introduce a camera-decoupled virtual depth to unify the depth prediction for the images with different camera intrinsic parameters. The resultant detector is dubbed Azimuth-equivariant Detector (AeDet). Extensive experiments are conducted on nuScenes, and AeDet achieves a 62.0% NDS, surpassing the recent multi-view 3D object detectors such as PETRv2 (58.2% NDS) and BEVDepth (60.0% NDS) by a large margin. Project page: https://fcjian.github.io/aedet.
arxiv情報
著者 | Chengjian Feng,Zequn Jie,Yujie Zhong,Xiangxiang Chu,Lin Ma |
発行日 | 2022-11-22 18:59:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google