Geometric-aware Pretraining for Vision-centric 3D Object Detection

要約

タイトル:ジオメトリに注目したプリトレーニングの視覚中心3D物体検知への適用

要約:
– 自動運転のマルチカメラ3D物体検知は、学術界や産業界から注目を集めている。その際、RGB画像から幾何的な特徴を正確に抽出することが課題となっている。
– 最近のアプローチでは、深度情報を用いた幾何学的に気を付けた画像バックボーンのプリトレーニングを用いることが多いが、視点変換については考慮されていなかったことから性能不足に陥っていた。
– この問題に対処するため、GAPretrainと呼ばれる新しいジオメトリに注目したプリトレーニングフレームワークを提案している。
– このアプローチは、プリトレーニング段階でジオメトリリッチなモダリティを使用し、カメラネットワークに空間的および構造的ヒントを与えることで最適化をはかる。
– GAPretrainは、複数の最先端検出器に柔軟に適用できるプラグアンドプレイソリューションとして機能する。
– 実験により、提案手法の有効性と汎用性が実証された。 BEVFormerメソッドにより、nuScenes valセットにおいて46.2 mAPと55.5 NDSを達成し、2.7点と2.1点のゲインが得られた。
– また、異なる画像バックボーンや視点変換についても実験が行われ、アプローチの有効性が検証された。GitHubでコードが公開される予定。

要約(オリジナル)

Multi-camera 3D object detection for autonomous driving is a challenging problem that has garnered notable attention from both academia and industry. An obstacle encountered in vision-based techniques involves the precise extraction of geometry-conscious features from RGB images. Recent approaches have utilized geometric-aware image backbones pretrained on depth-relevant tasks to acquire spatial information. However, these approaches overlook the critical aspect of view transformation, resulting in inadequate performance due to the misalignment of spatial knowledge between the image backbone and view transformation. To address this issue, we propose a novel geometric-aware pretraining framework called GAPretrain. Our approach incorporates spatial and structural cues to camera networks by employing the geometric-rich modality as guidance during the pretraining phase. The transference of modal-specific attributes across different modalities is non-trivial, but we bridge this gap by using a unified bird’s-eye-view (BEV) representation and structural hints derived from LiDAR point clouds to facilitate the pretraining process. GAPretrain serves as a plug-and-play solution that can be flexibly applied to multiple state-of-the-art detectors. Our experiments demonstrate the effectiveness and generalization ability of the proposed method. We achieve 46.2 mAP and 55.5 NDS on the nuScenes val set using the BEVFormer method, with a gain of 2.7 and 2.1 points, respectively. We also conduct experiments on various image backbones and view transformations to validate the efficacy of our approach. Code will be released at https://github.com/OpenDriveLab/BEVPerception-Survey-Recipe.

arxiv情報

著者 Linyan Huang,Huijie Wang,Jia Zeng,Shengchuan Zhang,Liujuan Cao,Rongrong Ji,Junchi Yan,Hongyang Li
発行日 2023-04-06 14:33:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク