SSD-MonoDETR: Supervised Scale-aware Deformable Transformer for Monocular 3D Object Detection

要約

近年、1枚の2D画像から3D属性を予測することを目的とした単眼3D物体検出において、変換器ベースの手法が優れた性能を発揮している。既存のトランスフォーマーベースの手法の多くは、視覚表現と深度表現の両方を活用して物体上の貴重なクエリポイントを探索し、学習したクエリポイントの質は検出精度に大きな影響を与える。残念ながら、トランスフォーマーにおける既存の教師なし注意機構は、特に硬い物体において、不正確な受容野のために低品質の問い合わせ特徴を生成しがちである。この問題に取り組むため、本論文では、単眼3Dオブジェクト検出のための新しい教師ありスケールアウェア変形アテンション(SSDA)を提案する。具体的には、SSDAは、異なるスケールを持つ複数のマスクをプリセットし、オブジェクトクエリ拡張のためのスケールを意識したフィルタを適応的に学習するために、深度と視覚特徴を利用する。このスケール認識により、SSDAはオブジェクトクエリの正確な受容野を予測し、ロバストなクエリ特徴生成をサポートすることができる。また、SSDAには、スケール予測を監視するための重み付けスケールマッチング(WSM)損失が割り当てられており、教師なし注意メカニズムに比べて、より信頼性の高い結果を提示する。KITTIベンチマークを用いた広範な実験により、SSDAは、特に中程度の硬さの物体に対する検出精度を大幅に向上させ、既存のアプローチと比較して最先端の性能を達成することが実証されました。我々のコードは、https://github.com/mikasa3lili/SSD-MonoDETR で公開される予定です。

要約(オリジナル)

Transformer-based methods have demonstrated superior performance for monocular 3D object detection recently, which aims at predicting 3D attributes from a single 2D image. Most existing transformer-based methods leverage both visual and depth representations to explore valuable query points on objects, and the quality of the learned query points has a great impact on detection accuracy. Unfortunately, existing unsupervised attention mechanisms in transformers are prone to generate low-quality query features due to inaccurate receptive fields, especially on hard objects. To tackle this problem, this paper proposes a novel Supervised Scale-aware Deformable Attention (SSDA) for monocular 3D object detection. Specifically, SSDA presets several masks with different scales and utilizes depth and visual features to adaptively learn a scale-aware filter for object query augmentation. Imposing the scale awareness, SSDA could well predict the accurate receptive field of an object query to support robust query feature generation. Aside from this, SSDA is assigned with a Weighted Scale Matching (WSM) loss to supervise scale prediction, which presents more confident results as compared to the unsupervised attention mechanisms. Extensive experiments on the KITTI benchmark demonstrate that SSDA significantly improves the detection accuracy, especially on moderate and hard objects, yielding state-of-the-art performance as compared to the existing approaches. Our code will be made publicly available at https://github.com/mikasa3lili/SSD-MonoDETR.

arxiv情報

著者 Xuan He,Fan Yang,Kailun Yang,Jiacheng Lin,Haolong Fu,Meng Wang,Jin Yuan,Zhiyong Li
発行日 2023-06-02 05:26:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.RO, eess.IV パーマリンク