Dual-Domain Homogeneous Fusion with Cross-Modal Mamba and Progressive Decoder for 3D Object Detection

要約

均一なBEVドメインでのLidarと画像機能の融合は、自律運転での3Dオブジェクト検出に人気があります。
ただし、このパラダイムは、過剰な特徴圧縮によって制約されます。
いくつかの作品は密なボクセル融合を探求して、より良い機能の相互作用を可能にしますが、クエリ生成における高い計算コストと課題に直面しています。
さらに、両方のドメインでの機能の不整合により、最適ではない検出精度が発生します。
これらの制限に対処するために、Dual Domainの均質融合ネットワーク(DDHFusion)を提案します。これは、BEVドメインとボクセルドメインの両方を相補的に活用しながら、欠点を軽減します。
具体的には、最初に画像機能をリフトスプラットショットと提案されたセマンティックアウェア機能サンプリング(SAFS)モジュールを使用して、BEVおよびスパースボクセル表現に変換します。
後者は、重要でないボクセルを破棄することにより、計算オーバーヘッドを大幅に削減します。
次に、それぞれのドメイン内でマルチモーダル融合のために、均一なボクセルおよびBev Fusion(HVFおよびHBF)ネットワークを紹介します。
彼らは、特徴の不整合を解決し、包括的なシーンの認識を可能にするために、新しいクロスモーダルマンバブロックを装備しています。
出力ボクセル機能は、直接高さ圧縮によってもたらされる情報の損失を補うためにBEVスペースに注入されます。
クエリの選択中、Progressiveクエリ生成(PQG)メカニズムがBEVドメインに実装され、特徴圧縮によって引き起こされる偽陰性を減らします。
さらに、コンテキストが豊富なBEV特徴だけでなく、変形可能な注意を払うジオメトリを意識したボクセル機能と、正確な分類とボックス回帰のためのマルチモーダルボクセル機能ミキシング(MMVFM)ブロックを順次凝集させるプログレッシブデコーダー(QD)を提案します。

要約(オリジナル)

Fusing LiDAR and image features in a homogeneous BEV domain has become popular for 3D object detection in autonomous driving. However, this paradigm is constrained by the excessive feature compression. While some works explore dense voxel fusion to enable better feature interaction, they face high computational costs and challenges in query generation. Additionally, feature misalignment in both domains results in suboptimal detection accuracy. To address these limitations, we propose a Dual-Domain Homogeneous Fusion network (DDHFusion), which leverages the complementarily of both BEV and voxel domains while mitigating their drawbacks. Specifically, we first transform image features into BEV and sparse voxel representations using lift-splat-shot and our proposed Semantic-Aware Feature Sampling (SAFS) module. The latter significantly reduces computational overhead by discarding unimportant voxels. Next, we introduce Homogeneous Voxel and BEV Fusion (HVF and HBF) networks for multi-modal fusion within respective domains. They are equipped with novel cross-modal Mamba blocks to resolve feature misalignment and enable comprehensive scene perception. The output voxel features are injected into the BEV space to compensate for the information loss brought by direct height compression. During query selection, the Progressive Query Generation (PQG) mechanism is implemented in the BEV domain to reduce false negatives caused by feature compression. Furthermore, we propose a Progressive Decoder (QD) that sequentially aggregates not only context-rich BEV features but also geometry-aware voxel features with deformable attention and the Multi-Modal Voxel Feature Mixing (MMVFM) block for precise classification and box regression.

arxiv情報

著者 Xuzhong Hu,Zaipeng Duan,Pei An,Jun zhang,Jie Ma
発行日 2025-03-17 15:33:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク