Bridging the Gap between Multi-focus and Multi-modal: A Focused Integration Framework for Multi-modal Image Fusion

要約

マルチモーダル画像融合(MMIF)は、異なるモダリティの画像から貴重な情報を融合した画像に統合する。しかし、焦点領域の異なる複数の可視画像と赤外画像の融合は、実際のMMIFアプリケーションにおいて前例のない課題である。これは、可視光学レンズの焦点深度に限界があり、同一シーン内の焦点情報を同時に捉えることができないためである。この問題に対処するため、本論文では、合焦統合とモダリティ情報抽出のためのMMIFフレームワークを提案する。具体的には、半スパース性に基づく平滑化フィルタを導入し、画像を構造成分とテクスチャ成分に分解する。その後、画素のフォーカス属性と様々なモーダル画像からの関連データを考慮することで、重要な情報を検出することができる、テクスチャ成分を融合するための新しいマルチスケールオペレータを提案する。さらに、シーン輝度の効果的なキャプチャと適度なコントラスト維持を達成するために、多方向周波数分散と情報エントロピーの観点から、構造成分におけるエネルギー情報の分布を考慮する。既存のMMIFデータセット、および物体検出と奥行き推定タスクに対する広範な実験により、提案アルゴリズムが視覚認識と定量的評価において最先端の手法を凌駕できることが一貫して実証されている。コードはhttps://github.com/ixilai/MFIF-MMIF。

要約(オリジナル)

Multi-modal image fusion (MMIF) integrates valuable information from different modality images into a fused one. However, the fusion of multiple visible images with different focal regions and infrared images is a unprecedented challenge in real MMIF applications. This is because of the limited depth of the focus of visible optical lenses, which impedes the simultaneous capture of the focal information within the same scene. To address this issue, in this paper, we propose a MMIF framework for joint focused integration and modalities information extraction. Specifically, a semi-sparsity-based smoothing filter is introduced to decompose the images into structure and texture components. Subsequently, a novel multi-scale operator is proposed to fuse the texture components, capable of detecting significant information by considering the pixel focus attributes and relevant data from various modal images. Additionally, to achieve an effective capture of scene luminance and reasonable contrast maintenance, we consider the distribution of energy information in the structural components in terms of multi-directional frequency variance and information entropy. Extensive experiments on existing MMIF datasets, as well as the object detection and depth estimation tasks, consistently demonstrate that the proposed algorithm can surpass the state-of-the-art methods in visual perception and quantitative evaluation. The code is available at https://github.com/ixilai/MFIF-MMIF.

arxiv情報

著者 Xilai Li,Xiaosong Li,Tao Ye,Xiaoqi Cheng,Wuyang Liu,Haishu Tan
発行日 2023-11-03 12:58:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク