Multimodal Image Fusion based on Hybrid CNN-Transformer and Non-local Cross-modal Attention

要約

異種センサーによって撮影された画像の融合は、情報を充実させ、画像の品質を向上させるのに役立ちます。
この記事では、畳み込みエンコーダーと Transformer ベースのデコーダーで構成されるハイブリッド モデルを提示して、マルチモーダル イメージを融合します。
エンコーダーでは、複数のソース画像のローカルとグローバルの両方の依存関係をキャプチャするために、非ローカル クロスモーダル アテンション ブロックが提案されています。
分岐融合モジュールは、2 つの分岐の機能を適応的に融合するように設計されています。
提案されたネットワークの再構築機能を強化するために、デコーダに線形複雑さを持つ Transformer モジュールを組み込みます。
定性的および定量的実験は、既存の最先端の融合モデルと比較することにより、提案された方法の有効性を示しています。
私たちの作業のソース コードは、https://github.com/pandayuanyu/HCFusion で入手できます。

要約(オリジナル)

The fusion of images taken by heterogeneous sensors helps to enrich the information and improve the quality of imaging. In this article, we present a hybrid model consisting of a convolutional encoder and a Transformer-based decoder to fuse multimodal images. In the encoder, a non-local cross-modal attention block is proposed to capture both local and global dependencies of multiple source images. A branch fusion module is designed to adaptively fuse the features of the two branches. We embed a Transformer module with linear complexity in the decoder to enhance the reconstruction capability of the proposed network. Qualitative and quantitative experiments demonstrate the effectiveness of the proposed method by comparing it with existing state-of-the-art fusion models. The source code of our work is available at https://github.com/pandayuanyu/HCFusion.

arxiv情報

著者 Yu Yuan,Jiaqi Wu,Zhongliang Jing,Henry Leung,Han Pan
発行日 2022-10-18 13:30:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク