AeDet: Azimuth-invariant Multi-view 3D Object Detection

要約

タイトル:Azimuth-invariant Multi-view 3D Object Detection

要約:
– 最近のLSS(LiDAR and Stereo fusion)ベースのマルチビュー3D物体検知は、BEV(Bird’s-Eye-View)での畳み込み検出器によって特徴を処理することにより、大きな進歩を遂げている。
– ただし、典型的な畳み込みは、BEVの特徴の放射状対称性を無視し、検出器の最適化を困難にする。
– BEVの特徴の固有の属性を保持し、最適化を容易にするために、方位角等価畳み込み(AeConv)と方位角等価アンカーを提案する。
– AeConvのサンプリンググリッドは常に半径方向にあり、方位角に不変なBEVの特徴を学習できる。
– 提案されたアンカーにより、検出ヘッドは方位角に関係ないターゲットの予測を学習することができる。
– さらに、異なるカメラ内部パラメータを持つ画像のために深度予測を統一するために、カメラ非依存仮想深度を導入する。
– その結果得られる検出器は、Azimuth-equivariant Detector(AeDet)と呼ばれる。
– nuScenesに対して広範な実験が行われ、AeDetは62.0%のNDSを達成し、PETRv2やBEVDepthなどの最近のマルチビュー3D物体検知器を大幅に上回っている。 プロジェクトページ(https://fcjian.github.io/aedet)。

要約(オリジナル)

Recent LSS-based multi-view 3D object detection has made tremendous progress, by processing the features in Brid-Eye-View (BEV) via the convolutional detector. However, the typical convolution ignores the radial symmetry of the BEV features and increases the difficulty of the detector optimization. To preserve the inherent property of the BEV features and ease the optimization, we propose an azimuth-equivariant convolution (AeConv) and an azimuth-equivariant anchor. The sampling grid of AeConv is always in the radial direction, thus it can learn azimuth-invariant BEV features. The proposed anchor enables the detection head to learn predicting azimuth-irrelevant targets. In addition, we introduce a camera-decoupled virtual depth to unify the depth prediction for the images with different camera intrinsic parameters. The resultant detector is dubbed Azimuth-equivariant Detector (AeDet). Extensive experiments are conducted on nuScenes, and AeDet achieves a 62.0% NDS, surpassing the recent multi-view 3D object detectors such as PETRv2 and BEVDepth by a large margin. Project page: https://fcjian.github.io/aedet.

arxiv情報

著者 Chengjian Feng,Zequn Jie,Yujie Zhong,Xiangxiang Chu,Lin Ma
発行日 2023-04-04 09:34:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク