DFVO: Learning Darkness-free Visible and Infrared Image Disentanglement and Fusion All at Once

要約

可視および赤外線融合は、画像融合の分野で最も重要なタスクの1つであり、高レベルのビジョンタスクのための明確な構造情報と高品質のテクスチャ機能を備えた融合画像を生成することを目指しています。
ただし、目に見える画像の深刻な照明劣化に直面した場合、既存の画像融合法の融合結果はしばしばぼやけた視覚効果を示し、自律運転に大きな課題をもたらします。
この目的のために、可視および赤外線の画像の解きと融合を一度に処理するために暗闇のないネットワークが提案されています(DFVO)。カスケードされたマルチタスクアプローチを採用して、従来の2段階のカスケードトレーニング(強化と融合)を置き換え、歴史的なデータ伝達によって引き起こされる情報エントロピー損失の問題に対処します。
具体的には、カスケードタスク戦略の潜在的な特徴を取得するために、潜在的な特徴抽出器(LCFE)を構築します。
まず、詳細抽出モジュール(DEM)が考案され、高周波セマンティック情報を取得します。
第二に、低周波情報を抽出し、ソース画像からテクスチャ機能を保持するために、ハイパークロスアテンションモジュール(HCAM)を設計します。
最後に、関連する損失関数は、全体的なネットワーク学習を導くように設計されており、それによりより良い画像融合を実現します。
広範な実験は、提案されたアプローチが定性的および定量的評価の観点から最先端の代替案よりも優れていることを示しています。
特に、DFVOは、暗い環境でより明確で、より有益で、より均等に照らされた融合の結果を生成することができ、63.258 dB PSNRと0.724 ccでLLVIPデータセットで最高のパフォーマンスを達成し、高レベルの視覚タスクのより効果的な情報を提供します。
私たちのコードは、https://github.com/davin-qi530/dfvoで公開されています。

要約(オリジナル)

Visible and infrared image fusion is one of the most crucial tasks in the field of image fusion, aiming to generate fused images with clear structural information and high-quality texture features for high-level vision tasks. However, when faced with severe illumination degradation in visible images, the fusion results of existing image fusion methods often exhibit blurry and dim visual effects, posing major challenges for autonomous driving. To this end, a Darkness-Free network is proposed to handle Visible and infrared image disentanglement and fusion all at Once (DFVO), which employs a cascaded multi-task approach to replace the traditional two-stage cascaded training (enhancement and fusion), addressing the issue of information entropy loss caused by hierarchical data transmission. Specifically, we construct a latent-common feature extractor (LCFE) to obtain latent features for the cascaded tasks strategy. Firstly, a details-extraction module (DEM) is devised to acquire high-frequency semantic information. Secondly, we design a hyper cross-attention module (HCAM) to extract low-frequency information and preserve texture features from source images. Finally, a relevant loss function is designed to guide the holistic network learning, thereby achieving better image fusion. Extensive experiments demonstrate that our proposed approach outperforms state-of-the-art alternatives in terms of qualitative and quantitative evaluations. Particularly, DFVO can generate clearer, more informative, and more evenly illuminated fusion results in the dark environments, achieving best performance on the LLVIP dataset with 63.258 dB PSNR and 0.724 CC, providing more effective information for high-level vision tasks. Our code is publicly accessible at https://github.com/DaVin-Qi530/DFVO.

arxiv情報

著者 Qi Zhou,Yukai Shi,Xiaojun Yang,Xiaoyu Xian,Lunjia Liao,Ruimao Zhang,Liang Lin
発行日 2025-05-07 15:59:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク