Implicit Multi-Spectral Transformer: An Lightweight and Effective Visible to Infrared Image Translation Model

要約

コンピュータ ビジョンの分野では、可視光画像は暗い環境ではコントラストが低いことが多く、大きな課題となっています。
赤外線画像は潜在的な解決策を提供しますが、その利用には高コストと実際的な制限が伴います。
深層学習の最近の進歩、特に敵対的生成ネットワーク (GAN) の導入により、可視光画像から赤外線画像への変換が容易になりました。
ただし、これらの方法ではトレーニング段階が不安定になることが多く、最適ではない出力が生成される可能性があります。
これらの問題に対処するために、可視光画像を高忠実度の赤外線画像に効率的に変換する、新しいエンドツーエンドの Transformer ベースのモデルを提案します。
最初に、テクスチャ マッピング モジュールと色認識アダプタが連携して、可視光画像からテクスチャと色の特徴を抽出します。
その後、Dynamic Fusion Aggregation Module によってこれらの機能が統合されます。
最後に、赤外線画像への変換は、色知覚アダプターと強化された知覚注意メカニズムの相乗作用によって洗練されます。
包括的なベンチマーク実験により、私たちのモデルが既存の方法よりも優れており、定性的および定量的の両方で著しく優れた品質の赤外線画像が生成されることが確認されています。
さらに、提案されたモデルは、他の方法よりも効果的な赤外線画像の下流アプリケーションを可能にします。

要約(オリジナル)

In the field of computer vision, visible light images often exhibit low contrast in low-light conditions, presenting a significant challenge. While infrared imagery provides a potential solution, its utilization entails high costs and practical limitations. Recent advancements in deep learning, particularly the deployment of Generative Adversarial Networks (GANs), have facilitated the transformation of visible light images to infrared images. However, these methods often experience unstable training phases and may produce suboptimal outputs. To address these issues, we propose a novel end-to-end Transformer-based model that efficiently converts visible light images into high-fidelity infrared images. Initially, the Texture Mapping Module and Color Perception Adapter collaborate to extract texture and color features from the visible light image. The Dynamic Fusion Aggregation Module subsequently integrates these features. Finally, the transformation into an infrared image is refined through the synergistic action of the Color Perception Adapter and the Enhanced Perception Attention mechanism. Comprehensive benchmarking experiments confirm that our model outperforms existing methods, producing infrared images of markedly superior quality, both qualitatively and quantitatively. Furthermore, the proposed model enables more effective downstream applications for infrared images than other methods.

arxiv情報

著者 Yijia Chen,Pinghua Chen,Xiangxin Zhou,Yingtie Lei,Ziyang Zhou,Mingxian Li
発行日 2024-04-10 15:02:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク