Bridging the Gap between Multi-focus and Multi-modal: A Focused Integration Framework for Multi-modal Image Fusion

要約

マルチモーダル画像融合 (MMIF) は、さまざまなモダリティ画像からの貴重な情報を 1 つの融合画像に統合します。
ただし、異なる焦点領域を持つ複数の可視画像と赤外線画像を融合することは、実際の MMIF アプリケーションでは前例のない課題です。
これは、可視光学レンズの焦点深度が限られており、同じシーン内の焦点情報を同時に取得することが妨げられるためです。
この問題に対処するために、この論文では、共同焦点統合とモダリティ情報抽出のための MMIF フレームワークを提案します。
具体的には、半スパース性ベースの平滑化フィルターが導入され、画像が構造成分とテクスチャ成分に分解されます。
続いて、さまざまなモーダル画像からのピクセル焦点属性と関連データを考慮することで重要な情報を検出できる、テクスチャコンポーネントを融合するための新しいマルチスケールオペレーターが提案されています。
さらに、シーンの輝度の効果的なキャプチャと合理的なコントラストの維持を達成するために、多方向の周波数分散と情報エントロピーの観点から、構造コンポーネント内のエネルギー情報の分布を考慮します。
既存の MMIF データセット、および物体検出および深度推定タスクに関する広範な実験により、提案されたアルゴリズムが視覚認識と定量的評価において最先端の方法を超えることができることが一貫して実証されています。
コードは https://github.com/ixilai/MFIF-MMIF で入手できます。

要約(オリジナル)

Multi-modal image fusion (MMIF) integrates valuable information from different modality images into a fused one. However, the fusion of multiple visible images with different focal regions and infrared images is a unprecedented challenge in real MMIF applications. This is because of the limited depth of the focus of visible optical lenses, which impedes the simultaneous capture of the focal information within the same scene. To address this issue, in this paper, we propose a MMIF framework for joint focused integration and modalities information extraction. Specifically, a semi-sparsity-based smoothing filter is introduced to decompose the images into structure and texture components. Subsequently, a novel multi-scale operator is proposed to fuse the texture components, capable of detecting significant information by considering the pixel focus attributes and relevant data from various modal images. Additionally, to achieve an effective capture of scene luminance and reasonable contrast maintenance, we consider the distribution of energy information in the structural components in terms of multi-directional frequency variance and information entropy. Extensive experiments on existing MMIF datasets, as well as the object detection and depth estimation tasks, consistently demonstrate that the proposed algorithm can surpass the state-of-the-art methods in visual perception and quantitative evaluation. The code is available at https://github.com/ixilai/MFIF-MMIF.

arxiv情報

著者 Xilai Li,Xiaosong Li,Tao Ye,Xiaoqi Cheng,Wuyang Liu,Haishu Tan
発行日 2024-01-31 12:13:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク