DETR4D: Direct Multi-View 3D Object Detection with Sparse Attention

要約

サラウンド ビュー画像を使用した 3D 物体検出は、自動運転に不可欠なタスクです。
この作業では、マルチビュー画像での3Dオブジェクト検出のためのスパースアテンションと直接機能クエリを調査するTransformerベースのフレームワークであるDETR4Dを提案します。
クロス ビュー オブジェクトの幾何学的手がかりの利用と情報損失の観点から、既存の方法の制限に対処するために、クエリと画像の相互作用のための新しい射影的クロスアテンション メカニズムを設計します。
さらに、クエリの初期化によって 3D 空間と 2D 空間を効率的に橋渡しするヒートマップ生成手法を紹介します。
さらに、時間集約のために中間空間特徴を融合する一般的な方法とは異なり、過去のオブジェクトクエリと画像特徴に対してクロスフレーム融合を実行する新しいハイブリッドアプローチを導入することにより、新しい視点を提供し、時間情報の効率的かつ堅牢なモデリングを可能にします。
nuScenes データセットでの広範な実験により、提案された DETR4D の有効性と効率が実証されました。

要約(オリジナル)

3D object detection with surround-view images is an essential task for autonomous driving. In this work, we propose DETR4D, a Transformer-based framework that explores sparse attention and direct feature query for 3D object detection in multi-view images. We design a novel projective cross-attention mechanism for query-image interaction to address the limitations of existing methods in terms of geometric cue exploitation and information loss for cross-view objects. In addition, we introduce a heatmap generation technique that bridges 3D and 2D spaces efficiently via query initialization. Furthermore, unlike the common practice of fusing intermediate spatial features for temporal aggregation, we provide a new perspective by introducing a novel hybrid approach that performs cross-frame fusion over past object queries and image features, enabling efficient and robust modeling of temporal information. Extensive experiments on the nuScenes dataset demonstrate the effectiveness and efficiency of the proposed DETR4D.

arxiv情報

著者 Zhipeng Luo,Changqing Zhou,Gongjie Zhang,Shijian Lu
発行日 2022-12-15 14:18:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク