DVPE: Divided View Position Embedding for Multi-View 3D Object Detection

要約

スパースクエリベースのパラダイムは、自動運転車のマルチビュー 3D 検出で大きな成功を収めています。
現在の研究は、マルチビューの特徴を集約する際に、受容野の拡大と干渉の低減との間のバランスをとるという課題に直面している。
さらに、カメラのポーズが異なると、グローバル アテンション モデルをトレーニングする際に課題が生じます。
これらの問題に対処するために、この論文では分割ビュー法を提案します。この方法では、可視性クロスアテンション メカニズムを介してフィーチャがグローバルにモデル化されますが、分割されたローカル仮想空間内の部分的なフィーチャのみと対話します。
これにより、他の無関係な特徴からの干渉が効果的に軽減され、位置の埋め込みをカメラのポーズから分離することでトランスフォーマーのトレーニングの困難が軽減されます。
さらに、2D 歴史的 RoI 特徴がオブジェクト中心の時間モデリングに組み込まれ、高レベルの視覚的意味情報が利用されます。
モデルは、安定性を高めるために 1 対多の割り当て戦略を使用してトレーニングされます。
DVPE と呼ばれる私たちのフレームワークは、nuScenes テスト セットで最先端のパフォーマンス (57.2% mAP および 64.5% NDS) を達成します。
コードは https://github.com/dop0/DVPE で入手できます。

要約(オリジナル)

Sparse query-based paradigms have achieved significant success in multi-view 3D detection for autonomous vehicles. Current research faces challenges in balancing between enlarging receptive fields and reducing interference when aggregating multi-view features. Moreover, different poses of cameras present challenges in training global attention models. To address these problems, this paper proposes a divided view method, in which features are modeled globally via the visibility crossattention mechanism, but interact only with partial features in a divided local virtual space. This effectively reduces interference from other irrelevant features and alleviates the training difficulties of the transformer by decoupling the position embedding from camera poses. Additionally, 2D historical RoI features are incorporated into the object-centric temporal modeling to utilize highlevel visual semantic information. The model is trained using a one-to-many assignment strategy to facilitate stability. Our framework, named DVPE, achieves state-of-the-art performance (57.2% mAP and 64.5% NDS) on the nuScenes test set. Codes will be available at https://github.com/dop0/DVPE.

arxiv情報

著者 Jiasen Wang,Zhenglin Li,Ke Sun,Xianyuan Liu,Yang Zhou
発行日 2024-07-24 02:44:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク