MDHA: Multi-Scale Deformable Transformer with Hybrid Anchors for Multi-View 3D Object Detection

要約

マルチビュー 3D 物体検出は、自動運転システムの重要なコンポーネントです。
現在のクエリベースの手法は主に、バイアスを導入するデータセット固有の 3D アンカーの初期化に依存するか、計算効率が悪くスケーラブルでない高密度アテンション メカニズムを利用します。
これらの問題を克服するために、マルチビュー、マルチスケールの入力からハイブリッド アンカーを使用して適応型 3D 出力提案を構築する、新しいスパース クエリベースのフレームワークである MDHA を紹介します。
固定 2D アンカーは深度予測と組み合わせて 2.5D アンカーを形成し、これを投影して 3D 提案を取得します。
高効率を確保するために、私たちが提案するアンカー エンコーダーはスパース リファインメントを実行し、上位 k 個のアンカーと特徴を選択します。
さらに、既存のマルチビュー アテンション メカニズムは参照ポイントを複数の画像に投影することに依存していますが、当社の新しい円形変形アテンション メカニズムは単一の画像にのみ投影しますが、参照ポイントが隣接する画像にシームレスにアテンションできるようにし、パフォーマンスを犠牲にすることなく効率を向上させます。
nuScenes val セットでは、ResNet101 バックボーンで 46.4% の mAP と 55.0% の NDS を達成します。
MDHA は、アンカー提案が学習可能な埋め込みとしてモデル化されるベースラインを大幅に上回ります。

要約(オリジナル)

Multi-view 3D object detection is a crucial component of autonomous driving systems. Contemporary query-based methods primarily depend either on dataset-specific initialization of 3D anchors, introducing bias, or utilize dense attention mechanisms, which are computationally inefficient and unscalable. To overcome these issues, we present MDHA, a novel sparse query-based framework, which constructs adaptive 3D output proposals using hybrid anchors from multi-view, multi-scale input. Fixed 2D anchors are combined with depth predictions to form 2.5D anchors, which are projected to obtain 3D proposals. To ensure high efficiency, our proposed Anchor Encoder performs sparse refinement and selects the top-k anchors and features. Moreover, while existing multi-view attention mechanisms rely on projecting reference points to multiple images, our novel Circular Deformable Attention mechanism only projects to a single image but allows reference points to seamlessly attend to adjacent images, improving efficiency without compromising on performance. On the nuScenes val set, it achieves 46.4% mAP and 55.0% NDS with a ResNet101 backbone. MDHA significantly outperforms the baseline, where anchor proposals are modelled as learnable embeddings.

arxiv情報

著者 Michelle Adeline,Junn Yong Loo,Vishnu Monn Baskaran
発行日 2024-06-25 15:46:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク