要約
近年、1枚の2D画像から3D属性を予測することを目的とした単眼3D物体検出において、変換器ベースの手法が優れた性能を発揮している。既存の変換器ベースの手法の多くは、視覚表現と奥行き表現の両方を活用して物体上の貴重なクエリポイントを探索し、学習されたクエリポイントの質は検出精度に大きな影響を与える。残念なことに、変換器における既存の教師なし注意機構は、特に硬い物体において、不正確な受容野のために低品質の問い合わせ特徴を生成しやすい。この問題に取り組むため、本論文では、単眼3D物体検出のための新しい「教師ありスケール認識変形可能注意(Supervised Scale-aware Deformable Attention)」(SSDA)を提案する。具体的には、SSDAは異なるスケールを持つ複数のマスクをプリセットし、奥行きと視覚的特徴を利用して、物体クエリ拡張のためのスケールを意識したフィルタを適応的に学習する。スケールを認識することで、SSDAは物体クエリの正確な受容野を予測し、ロバストなクエリ特徴生成をサポートする。これとは別に、SSDAはスケール予測を監視するために重み付きスケールマッチング(WSM)損失を割り当て、教師なし注意メカニズムに比べてより信頼性の高い結果を示す。KITTIとWaymo Openデータセットでの広範な実験により、SSDAが、特に中程度で硬い物体の検出精度を大幅に向上させ、既存のアプローチと比較して最先端の性能をもたらすことが実証された。我々のコードは https://github.com/mikasa3lili/SSD-MonoDETR で公開される予定である。
要約(オリジナル)
Transformer-based methods have demonstrated superior performance for monocular 3D object detection recently, which aims at predicting 3D attributes from a single 2D image. Most existing transformer-based methods leverage both visual and depth representations to explore valuable query points on objects, and the quality of the learned query points has a great impact on detection accuracy. Unfortunately, existing unsupervised attention mechanisms in transformers are prone to generate low-quality query features due to inaccurate receptive fields, especially on hard objects. To tackle this problem, this paper proposes a novel ‘Supervised Scale-aware Deformable Attention’ (SSDA) for monocular 3D object detection. Specifically, SSDA presets several masks with different scales and utilizes depth and visual features to adaptively learn a scale-aware filter for object query augmentation. Imposing the scale awareness, SSDA could well predict the accurate receptive field of an object query to support robust query feature generation. Aside from this, SSDA is assigned with a Weighted Scale Matching (WSM) loss to supervise scale prediction, which presents more confident results as compared to the unsupervised attention mechanisms. Extensive experiments on the KITTI and Waymo Open datasets demonstrate that SSDA significantly improves the detection accuracy, especially on moderate and hard objects, yielding state-of-the-art performance as compared to the existing approaches. Our code will be made publicly available at https://github.com/mikasa3lili/SSD-MonoDETR.
arxiv情報
著者 | Xuan He,Fan Yang,Kailun Yang,Jiacheng Lin,Haolong Fu,Meng Wang,Jin Yuan,Zhiyong Li |
発行日 | 2023-09-01 16:17:54+00:00 |
arxivサイト | arxiv_id(pdf) |