OCBEV: Object-Centric BEV Transformer for Multi-View 3D Object Detection

要約

マルチビュー3Dオブジェクト検出は、その高い有効性と低コストにより、自律走行において普及している。現在の最先端の検出器のほとんどは、クエリベースの鳥瞰図(BEV)パラダイムに従っており、BEVの強力な知覚力とエンドツーエンドのパイプラインの両方から利益を得ています。このため、複雑でダイナミックな自律走行シナリオを処理する際に問題が発生する。本論文では、移動するターゲットの時間的・空間的手がかりをより効果的に刻むことができる、オブジェクト中心クエリBEV検出器OCBEVを提案した。OCBEVは3つのデザインから構成される:Object Aligned Temporal Fusionは、自我運動と移動するオブジェクトの推定現在位置に基づいてBEV特徴を整列させ、正確なインスタンスレベルの特徴フュージョンに導く。Object Focused Multi-View Samplingは、前景情報を充実させるために、シーンごとにオブジェクトの適応的な局所高さ範囲から、より多くの3D特徴をサンプリングします。オブジェクト・インフォームド・クエリー・エンハンスメントは、一般的なDETRスタイルのデコーダーであらかじめ定義されたクエリーの一部を、信頼度の高い位置にあるオブジェクトの位置特徴で置き換え、より直接的なオブジェクト位置のプリオールを導入します。難易度の高いnuScenesデータセットを用いて、広範な実験的評価を実施した。我々のアプローチは、従来のBEVFormerを1.5 NDSポイント上回り、最先端の結果を達成した。さらに、収束速度が速く、同等の性能を得るために必要な学習反復回数は半分で済み、その有効性がさらに証明された。

要約(オリジナル)

Multi-view 3D object detection is becoming popular in autonomous driving due to its high effectiveness and low cost. Most of the current state-of-the-art detectors follow the query-based bird’s-eye-view (BEV) paradigm, which benefits from both BEV’s strong perception power and end-to-end pipeline. Despite achieving substantial progress, existing works model objects via globally leveraging temporal and spatial information of BEV features, resulting in problems when handling the challenging complex and dynamic autonomous driving scenarios. In this paper, we proposed an Object-Centric query-BEV detector OCBEV, which can carve the temporal and spatial cues of moving targets more effectively. OCBEV comprises three designs: Object Aligned Temporal Fusion aligns the BEV feature based on ego-motion and estimated current locations of moving objects, leading to a precise instance-level feature fusion. Object Focused Multi-View Sampling samples more 3D features from an adaptive local height ranges of objects for each scene to enrich foreground information. Object Informed Query Enhancement replaces part of pre-defined decoder queries in common DETR-style decoders with positional features of objects on high-confidence locations, introducing more direct object positional priors. Extensive experimental evaluations are conducted on the challenging nuScenes dataset. Our approach achieves a state-of-the-art result, surpassing the traditional BEVFormer by 1.5 NDS points. Moreover, we have a faster convergence speed and only need half of the training iterations to get comparable performance, which further demonstrates its effectiveness.

arxiv情報

著者 Zhangyang Qi,Jiaqi Wang,Xiaoyang Wu,Hengshuang Zhao
発行日 2023-06-02 17:59:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク