SSD-MonoDETR: Supervised Scale-aware Deformable Transformer for Monocular 3D Object Detection

要約

近年、1枚の2D画像から3D属性を予測することを目的とした単眼3D物体検出において、変換器ベースの手法が優れた性能を発揮している。既存の変換器ベースの手法の多くは、物体上の貴重なクエリーポイントを探索するために、視覚表現と奥行き表現の両方を活用しており、学習されたクエリーポイントの質は検出精度に大きな影響を与える。残念なことに、変換器における既存の教師なし注意機構は、特に硬い物体において、不正確な受容野のために低品質の問い合わせ特徴を生成しやすい。この問題に取り組むため、本論文では単眼3D物体検出のための新しい教師ありスケール認識変形可能注意(Supervised Scale-aware Deformable Attention: SSDA)を提案する。具体的には、SSDAは異なるスケールを持つ複数のマスクをプリセットし、奥行きと視覚的特徴を利用して、物体クエリ拡張のためのスケールを意識したフィルタを適応的に学習する。スケールを認識することで、SSDAは物体クエリの正確な受容野を予測し、ロバストなクエリ特徴生成をサポートする。これとは別に、SSDAはスケール予測を監視するために重み付きスケールマッチング(WSM)損失を割り当て、教師なし注意メカニズムに比べてより信頼性の高い結果を示す。KITTIベンチマークを用いた広範な実験により、SSDAが、特に中程度で硬いオブジェクトの検出精度を大幅に向上させ、既存のアプローチと比較して最先端の性能をもたらすことが実証された。我々のコードは https://github.com/mikasa3lili/SSD-MonoDETR で公開される予定である。

要約(オリジナル)

Transformer-based methods have demonstrated superior performance for monocular 3D object detection recently, which aims at predicting 3D attributes from a single 2D image. Most existing transformer-based methods leverage both visual and depth representations to explore valuable query points on objects, and the quality of the learned query points has a great impact on detection accuracy. Unfortunately, existing unsupervised attention mechanisms in transformers are prone to generate low-quality query features due to inaccurate receptive fields, especially on hard objects. To tackle this problem, this paper proposes a novel Supervised Scale-aware Deformable Attention (SSDA) for monocular 3D object detection. Specifically, SSDA presets several masks with different scales and utilizes depth and visual features to adaptively learn a scale-aware filter for object query augmentation. Imposing the scale awareness, SSDA could well predict the accurate receptive field of an object query to support robust query feature generation. Aside from this, SSDA is assigned with a Weighted Scale Matching (WSM) loss to supervise scale prediction, which presents more confident results as compared to the unsupervised attention mechanisms. Extensive experiments on the KITTI benchmark demonstrate that SSDA significantly improves the detection accuracy, especially on moderate and hard objects, yielding state-of-the-art performance as compared to the existing approaches. Our code will be made publicly available at https://github.com/mikasa3lili/SSD-MonoDETR.

arxiv情報

著者 Xuan He,Fan Yang,Kailun Yang,Jiacheng Lin,Haolong Fu,Meng Wang,Jin Yuan,Zhiyong Li
発行日 2023-07-03 05:18:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.RO, eess.IV パーマリンク