CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for Multi-Modality Image Fusion

要約

【タイトル】CDDFuse:マルチモダリティ画像融合のための相関駆動型デュアルブランチ特徴分解

【要約】
– MM(マルチモダリティ)画像融合は、機能的なハイライトや詳細なテクスチャなど、異なるモダリティの長所を維持した合成画像を作成することを目的とする。
– クロスモダリティ特徴のモデリングと望ましいモダリティ特定およびモダリティ共有の特徴の分解に対する課題に対応するために、CDDFuseという新しい Correlation-Driven feature Decomposition Fusion ネットワークを提案する。
– まず、CDDFuseはRestormerブロックを使用してクロスモダリティ浅い特徴を抽出する。次に、Lite Transformer(LT)ブロックを活用して長距離注意を扱い、Invertible Neural Networks(INN)ブロックを利用して高周波数ローカル情報を抽出するデュアルブランチTransformer-CNN特徴抽出器を導入する。
– 組み込まれた情報に基づいて、低周波数の特徴が相関し、高周波数の特徴が相関しないように相関駆動型損失をさらに提案する。
– その後、LTベースのグローバル融合とINNベースのローカル融合レイヤーが合成画像を出力する。多数の実験により、CDDFuseが、赤外線-可視画像融合や医療画像融合などの複数の融合タスクで有望な結果を達成することが示された。
– さらに、CDDFuseは統一ベンチマークでの赤外線-可視セマンティックセグメンテーションおよびオブジェクト検出の性能向上も示された。コードはhttps://github.com/Zhaozixiang1228/MMIF-CDDFuseで入手可能。

要約(オリジナル)

Multi-modality (MM) image fusion aims to render fused images that maintain the merits of different modalities, e.g., functional highlight and detailed textures. To tackle the challenge in modeling cross-modality features and decomposing desirable modality-specific and modality-shared features, we propose a novel Correlation-Driven feature Decomposition Fusion (CDDFuse) network. Firstly, CDDFuse uses Restormer blocks to extract cross-modality shallow features. We then introduce a dual-branch Transformer-CNN feature extractor with Lite Transformer (LT) blocks leveraging long-range attention to handle low-frequency global features and Invertible Neural Networks (INN) blocks focusing on extracting high-frequency local information. A correlation-driven loss is further proposed to make the low-frequency features correlated while the high-frequency features uncorrelated based on the embedded information. Then, the LT-based global fusion and INN-based local fusion layers output the fused image. Extensive experiments demonstrate that our CDDFuse achieves promising results in multiple fusion tasks, including infrared-visible image fusion and medical image fusion. We also show that CDDFuse can boost the performance in downstream infrared-visible semantic segmentation and object detection in a unified benchmark. The code is available at https://github.com/Zhaozixiang1228/MMIF-CDDFuse.

arxiv情報

著者 Zixiang Zhao,Haowen Bai,Jiangshe Zhang,Yulun Zhang,Shuang Xu,Zudi Lin,Radu Timofte,Luc Van Gool
発行日 2023-04-10 10:46:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク