要約
タイトル:幾何学に注意した事前学習による視覚主導の3D物体検知
要約:
– 自律走行のためのマルチカメラ3Dオブジェクト検出は、学界と産業界の両方から注目を集めている課題です。
– 視覚ベースの技術で遭遇する壁は、RGB画像から幾何学に注意した特徴を正確に抽出することです。
– 最近のアプローチでは、深度に関連するタスクで事前に学習された幾何学に注意した画像バックボーンを利用して、空間情報を取得しています。
– しかし、これらのアプローチは、ビュー変換の重要な側面を見落としているため、空間的な知識の画像バックボーンとビュー変換の不一致により十分な性能が得られていません。
– この問題に対処するために、私たちはGAPretrainという新しい幾何学に注意したプレトレーニングフレームワークを提案しています。
– 私たちのアプローチでは、幾何学に富んだモダリティをガイダンスとして使用し、カメラネットワークに空間的および構造的な手がかりを組み込んでいます。
– GAPretrainは、LiDARポイントクラウドから派生したバードアイビュー(BEV)表現と構造的なヒントを使用して、さまざまなモダリティ間でモダリティ固有の属性の転送を実現することで、ギャップを埋めます。
– GAPretrainは、複数の最先端検出器に柔軟に適用できるプラグアンドプレイのソリューションとして機能します。
– 私たちの実験は、提案された方法の効果と一般化能力を示しています。
– BEVFormer法で、nuScenes検証セットで46.2 mAPと55.5 NDSを達成し、それぞれ2.7ポイントと2.1ポイントの改善を実現しました。
– 私たちはさまざまな画像バックボーンとビュー変換で実験を行い、アプローチの有効性を検証しました。
– コードはhttps://github.com/OpenDriveLab/BEVPerception-Survey-Recipeで公開されます。
要約(オリジナル)
Multi-camera 3D object detection for autonomous driving is a challenging problem that has garnered notable attention from both academia and industry. An obstacle encountered in vision-based techniques involves the precise extraction of geometry-conscious features from RGB images. Recent approaches have utilized geometric-aware image backbones pretrained on depth-relevant tasks to acquire spatial information. However, these approaches overlook the critical aspect of view transformation, resulting in inadequate performance due to the misalignment of spatial knowledge between the image backbone and view transformation. To address this issue, we propose a novel geometric-aware pretraining framework called GAPretrain. Our approach incorporates spatial and structural cues to camera networks by employing the geometric-rich modality as guidance during the pretraining phase. The transference of modal-specific attributes across different modalities is non-trivial, but we bridge this gap by using a unified bird’s-eye-view (BEV) representation and structural hints derived from LiDAR point clouds to facilitate the pretraining process. GAPretrain serves as a plug-and-play solution that can be flexibly applied to multiple state-of-the-art detectors. Our experiments demonstrate the effectiveness and generalization ability of the proposed method. We achieve 46.2 mAP and 55.5 NDS on the nuScenes val set using the BEVFormer method, with a gain of 2.7 and 2.1 points, respectively. We also conduct experiments on various image backbones and view transformations to validate the efficacy of our approach. Code will be released at https://github.com/OpenDriveLab/BEVPerception-Survey-Recipe.
arxiv情報
著者 | Linyan Huang,Huijie Wang,Jia Zeng,Shengchuan Zhang,Liujuan Cao,Junchi Yan,Hongyang Li |
発行日 | 2023-04-07 16:31:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI