S$^3$-MonoDETR: Supervised Shape&Scale-perceptive Deformable Transformer for Monocular 3D Object Detection

要約

最近、トランスフォーマベースの方法は、単一の 2D 画像から 3D 属性を予測できる単眼 3D オブジェクト検出において優れたパフォーマンスを示しています。
これらの方法は通常、視覚表現と深度表現を使用してオブジェクト上のクエリ ポイントを生成します。その品質が検出精度に決定的な役割を果たします。
ただし、トランスフォーマーのジオメトリの外観をまったく認識しない現在の教師なしアテンション メカニズムは、クエリ ポイントにノイズの多い特徴を生成する可能性があり、ネットワークのパフォーマンスが大幅に制限され、モデルが単一のトレーニング プロセスで複数のカテゴリのオブジェクトを検出する能力も低くなります。
この問題に取り組むために、本論文は単眼3D物体検出のための新しい「教師付き形状&スケール知覚変形可能注意」(S$^3$-DA)モジュールを提案する。
具体的には、S$^3$-DAは、視覚的特徴と深度特徴を利用して、さまざまな形状とスケールを持つ多様な局所特徴を生成し、対応する一致分布を同時に予測して、クエリごとに貴重な形状とスケールの認識を課します。
この利点を利用して、S$^3$-DA は、任意のカテゴリに属する​​クエリ ポイントの受容野を効果的に推定し、堅牢なクエリ特徴を生成できるようにします。
さらに、上記のプロセスを監視するために、多分類ベースの形状とスケールのマッチング (MSM) 損失を提案します。
KITTI および Waymo Open データセットに関する広範な実験により、S$^3$-DA が検出精度を大幅に向上させ、単一のトレーニング プロセスで単一カテゴリおよび複数カテゴリの 3D オブジェクト検出の最先端のパフォーマンスが得られることが実証されました。
既存のアプローチ。
ソースコードは https://github.com/mikasa3lili/S3-MonoDETR で公開されます。

要約(オリジナル)

Recently, transformer-based methods have shown exceptional performance in monocular 3D object detection, which can predict 3D attributes from a single 2D image. These methods typically use visual and depth representations to generate query points on objects, whose quality plays a decisive role in the detection accuracy. However, current unsupervised attention mechanisms without any geometry appearance awareness in transformers are susceptible to producing noisy features for query points, which severely limits the network performance and also makes the model have a poor ability to detect multi-category objects in a single training process. To tackle this problem, this paper proposes a novel “Supervised Shape&Scale-perceptive Deformable Attention” (S$^3$-DA) module for monocular 3D object detection. Concretely, S$^3$-DA utilizes visual and depth features to generate diverse local features with various shapes and scales and predict the corresponding matching distribution simultaneously to impose valuable shape&scale perception for each query. Benefiting from this, S$^3$-DA effectively estimates receptive fields for query points belonging to any category, enabling them to generate robust query features. Besides, we propose a Multi-classification-based Shape&Scale Matching (MSM) loss to supervise the above process. Extensive experiments on KITTI and Waymo Open datasets demonstrate that S$^3$-DA significantly improves the detection accuracy, yielding state-of-the-art performance of single-category and multi-category 3D object detection in a single training process compared to the existing approaches. The source code will be made publicly available at https://github.com/mikasa3lili/S3-MonoDETR.

arxiv情報

著者 Xuan He,Jin Yuan,Kailun Yang,Zhenchao Zeng,Zhiyong Li
発行日 2024-08-21 01:28:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO, eess.IV パーマリンク