SSLFusion: Scale & Space Aligned Latent Fusion Model for Multimodal 3D Object Detection

要約

深いニューラルネットワークに基づくマルチモーダル3Dオブジェクト検出は、実際に大きな進歩を遂げています。
ただし、2D画像から抽出された機能と3Dポイントクラウドから派生したものの間のスケールと空間情報の不整合により、課題に直面しています。
既存のメソッドは通常、単一の段階でマルチモーダル機能を集約します。
ただし、さまざまなスケールのオブジェクトを検出するには、マルチステージのクロスモーダル機能を活用することが重要です。
したがって、これらの方法は、さまざまなスケールとモダリティにわたって機能を効果的に統合することに苦労しているため、検出の精度を制限することがよくあります。
さらに、既存の方法でしばしば利用される時間のかかるクエリキーバリューベース(QKVベースの)クロスアテンション操作は、非ローカルコンテキストをキャプチャすることによりオブジェクトの位置と存在を推論するのに役立ちます。
ただし、このアプローチは計算の複雑さを高める傾向があります。
これらの課題に対処するために、スケールアライメント融合戦略(SAF)、3D対2Dスペースアライメントモジュール(SAM)、および潜在的なクロスモーダル融合モジュール(LFM)で構成される、新しいスケールとスペースアライメントの潜在的融合モデルであるSSLFusionを提示します。
SAFは、複数のレベルにわたって画像とポイントクラウドの両方の機能を集約することにより、モダリティ間のスケールの不整合を軽減します。
SAMは、3D座標情報を2D画像機能に組み込むことにより、画像とポイントクラウドからの機能間のモーダル間ギャップを削減するように設計されています。
さらに、LFMは、QKVベースの注意操作を使用せずに潜在空間でクロスモーダルの非ローカルコンテキストをキャプチャし、計算の複雑さを軽減します。
Kittiおよび密なデータセットでの実験は、SSLFusionが最先端の方法よりも優れていることを示しています。
私たちのアプローチは、3D APで2.15%の絶対的なゲインを獲得します。これは、キッティテストセットの中程度のレベルでの最先端のメソッドグラファリンと比較して得られます。

要約(オリジナル)

Multimodal 3D object detection based on deep neural networks has indeed made significant progress. However, it still faces challenges due to the misalignment of scale and spatial information between features extracted from 2D images and those derived from 3D point clouds. Existing methods usually aggregate multimodal features at a single stage. However, leveraging multi-stage cross-modal features is crucial for detecting objects of various scales. Therefore, these methods often struggle to integrate features across different scales and modalities effectively, thereby restricting the accuracy of detection. Additionally, the time-consuming Query-Key-Value-based (QKV-based) cross-attention operations often utilized in existing methods aid in reasoning the location and existence of objects by capturing non-local contexts. However, this approach tends to increase computational complexity. To address these challenges, we present SSLFusion, a novel Scale & Space Aligned Latent Fusion Model, consisting of a scale-aligned fusion strategy (SAF), a 3D-to-2D space alignment module (SAM), and a latent cross-modal fusion module (LFM). SAF mitigates scale misalignment between modalities by aggregating features from both images and point clouds across multiple levels. SAM is designed to reduce the inter-modal gap between features from images and point clouds by incorporating 3D coordinate information into 2D image features. Additionally, LFM captures cross-modal non-local contexts in the latent space without utilizing the QKV-based attention operations, thus mitigating computational complexity. Experiments on the KITTI and DENSE datasets demonstrate that our SSLFusion outperforms state-of-the-art methods. Our approach obtains an absolute gain of 2.15% in 3D AP, compared with the state-of-art method GraphAlign on the moderate level of the KITTI test set.

arxiv情報

著者 Bonan Ding,Jin Xie,Jing Nie,Jiale Cao
発行日 2025-04-07 15:15:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク