要約
RGBX-DiffusionDetは、DiffusionDetモデルを拡張し、適応的マルチモーダルエンコーダを介して、異種2次元データ(X)をRGB画像と融合させる物体検出フレームワークである。クロスモーダル相互作用を可能にするために、我々は畳み込みブロック注意モジュール(DCR-CBAM)内の動的チャネル削減を設計し、顕著なチャネル特徴を動的に強調することにより、サブネットワーク間のクロストークを容易にする。さらに、動的マルチレベル集約ブロック(DMLAB)を提案し、適応的マルチスケール融合により空間特徴表現を洗練する。最後に、チャネルの顕著性と空間選択性を強制する新しい正則化ロスを導入し、コンパクトで識別性の高い特徴埋め込みを実現する。RGB-Depth(KITTI)、新しい注釈付きRGB-Polarimetricデータセット、RGB-Infrared(M$^3$FD)ベンチマークデータセットを用いた広範な実験を行った。モジュラーアーキテクチャは元のデコーディングの複雑さを維持し、効率性を確保する。これらの結果は、提案するRGBX-DiffusionDetを柔軟なマルチモーダル物体検出アプローチとして確立し、拡散ベースの検出パイプラインに多様な2Dセンシングモダリティを統合するための新たな洞察を提供する。
要約(オリジナル)
This work introduces RGBX-DiffusionDet, an object detection framework extending the DiffusionDet model to fuse the heterogeneous 2D data (X) with RGB imagery via an adaptive multimodal encoder. To enable cross-modal interaction, we design the dynamic channel reduction within a convolutional block attention module (DCR-CBAM), which facilitates cross-talk between subnetworks by dynamically highlighting salient channel features. Furthermore, the dynamic multi-level aggregation block (DMLAB) is proposed to refine spatial feature representations through adaptive multiscale fusion. Finally, novel regularization losses that enforce channel saliency and spatial selectivity are introduced, leading to compact and discriminative feature embeddings. Extensive experiments using RGB-Depth (KITTI), a novel annotated RGB-Polarimetric dataset, and RGB-Infrared (M$^3$FD) benchmark dataset were conducted. We demonstrate consistent superiority of the proposed approach over the baseline RGB-only DiffusionDet. The modular architecture maintains the original decoding complexity, ensuring efficiency. These results establish the proposed RGBX-DiffusionDet as a flexible multimodal object detection approach, providing new insights into integrating diverse 2D sensing modalities into diffusion-based detection pipelines.
arxiv情報
著者 | Eliraz Orfaig,Inna Stainvas,Igal Bilik |
発行日 | 2025-05-05 11:39:51+00:00 |
arxivサイト | arxiv_id(pdf) |