要約
この論文では、2D から 3D への特徴リフティングのための 3D DeFormable Attendant (DFA3D) と呼ばれる新しいオペレーターを提案します。これは、マルチビュー 2D 画像特徴を 3D オブジェクト検出用の統一された 3D 空間に変換します。
リフト スプラット ベースや 2D アテンション ベースなどの既存の特徴リフティング アプローチは、推定された深度を使用して疑似 LiDAR 特徴を取得し、それを 3D 空間にスプラットするか (特徴の改良を行わない 1 パス操作です)、または 2D アテンション メカニズムによって深度とリフト特徴を無視するか、深さの曖昧さの問題に悩まされながらより詳細なセマンティクスを実現します。
対照的に、DFA3D ベースの方法では、まず推定された深度を利用して各ビューの 2D 特徴マップを 3D に拡張し、次に DFA3D を利用して拡張された 3D 特徴マップから特徴を集約します。
DFA3D の助けを借りて、深さの曖昧さの問題を根本から効果的に軽減することができ、Transformer のようなアーキテクチャのおかげで、リフトされたフィーチャをレイヤーごとに段階的に洗練させることができます。
さらに、メモリ効率と計算速度を大幅に向上できる、数学的に等価な DFA3D の実装を提案します。
コードをわずかに変更するだけで 2D アテンション ベースの特徴リフティングを使用するいくつかのメソッドに DFA3D を統合し、nuScenes データセットで評価します。
実験結果は、平均で +1.41\% mAP の一貫した改善を示し、高品質の深度情報が利用可能な場合には最大 +15.1\% mAP の改善を示し、DFA3D の優位性、適用性、および大きな可能性を実証しています。
コードは https://github.com/IDEA-Research/3D-deformable-attention.git で入手できます。
要約(オリジナル)
In this paper, we propose a new operator, called 3D DeFormable Attention (DFA3D), for 2D-to-3D feature lifting, which transforms multi-view 2D image features into a unified 3D space for 3D object detection. Existing feature lifting approaches, such as Lift-Splat-based and 2D attention-based, either use estimated depth to get pseudo LiDAR features and then splat them to a 3D space, which is a one-pass operation without feature refinement, or ignore depth and lift features by 2D attention mechanisms, which achieve finer semantics while suffering from a depth ambiguity problem. In contrast, our DFA3D-based method first leverages the estimated depth to expand each view’s 2D feature map to 3D and then utilizes DFA3D to aggregate features from the expanded 3D feature maps. With the help of DFA3D, the depth ambiguity problem can be effectively alleviated from the root, and the lifted features can be progressively refined layer by layer, thanks to the Transformer-like architecture. In addition, we propose a mathematically equivalent implementation of DFA3D which can significantly improve its memory efficiency and computational speed. We integrate DFA3D into several methods that use 2D attention-based feature lifting with only a few modifications in code and evaluate on the nuScenes dataset. The experiment results show a consistent improvement of +1.41\% mAP on average, and up to +15.1\% mAP improvement when high-quality depth information is available, demonstrating the superiority, applicability, and huge potential of DFA3D. The code is available at https://github.com/IDEA-Research/3D-deformable-attention.git.
arxiv情報
著者 | Hongyang Li,Hao Zhang,Zhaoyang Zeng,Shilong Liu,Feng Li,Tianhe Ren,Lei Zhang |
発行日 | 2023-07-24 17:49:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google