要約
マルチモダリティ画像融合 (MMIF) は、さまざまなモダリティからの相補的な情報を 1 つの融合画像に統合して、撮影シーンを表現し、下流の視覚タスクを包括的に容易にすることを目的としています。
近年、ディープ ニューラル ネットワークの進歩により、MMIF タスクは大幅に進歩しました。
しかし、既存の方法では、固有の局所還元バイアス (CNN) や二次計算量 (トランスフォーマー) によって制約されるモダリティ固有の特徴やモダリティ融合特徴を効果的かつ効率的に抽出することはできません。
この問題を解決するために、Mamba ベースの Dual-phase Fusion (MambaDFuse) モデルを提案します。
まず、デュアルレベル特徴抽出器は、CNN および Mamba ブロックから低レベルおよび高レベルの特徴を抽出することにより、単一モダリティ画像から長距離特徴をキャプチャするように設計されています。
次に、異なるモダリティからの相補的な情報を組み合わせた融合特徴を取得するために、デュアルフェーズ特徴融合モジュールが提案されます。
浅い融合にはチャネル交換方式が使用され、深い融合には強化されたマルチモーダル Mamba (M3) ブロックが使用されます。
最後に、融合画像再構成モジュールは、特徴抽出の逆変換を利用して融合結果を生成します。
広範な実験を通じて、私たちのアプローチは、赤外可視画像融合および医療画像融合において有望な融合結果を達成しました。
さらに、統合ベンチマークでは、MambaDFuse はオブジェクト検出などの下流タスクのパフォーマンスの向上も実証しました。
チェックポイントを含むコードは、ピアレビュー プロセス後に利用可能になります。
要約(オリジナル)
Multi-modality image fusion (MMIF) aims to integrate complementary information from different modalities into a single fused image to represent the imaging scene and facilitate downstream visual tasks comprehensively. In recent years, significant progress has been made in MMIF tasks due to advances in deep neural networks. However, existing methods cannot effectively and efficiently extract modality-specific and modality-fused features constrained by the inherent local reductive bias (CNN) or quadratic computational complexity (Transformers). To overcome this issue, we propose a Mamba-based Dual-phase Fusion (MambaDFuse) model. Firstly, a dual-level feature extractor is designed to capture long-range features from single-modality images by extracting low and high-level features from CNN and Mamba blocks. Then, a dual-phase feature fusion module is proposed to obtain fusion features that combine complementary information from different modalities. It uses the channel exchange method for shallow fusion and the enhanced Multi-modal Mamba (M3) blocks for deep fusion. Finally, the fused image reconstruction module utilizes the inverse transformation of the feature extraction to generate the fused result. Through extensive experiments, our approach achieves promising fusion results in infrared-visible image fusion and medical image fusion. Additionally, in a unified benchmark, MambaDFuse has also demonstrated improved performance in downstream tasks such as object detection. Code with checkpoints will be available after the peer-review process.
arxiv情報
著者 | Zhe Li,Haiwei Pan,Kejia Zhang,Yuhua Wang,Fengming Yu |
発行日 | 2024-04-12 11:33:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google