LadleNet: Translating Thermal Infrared Images to Visible Light Images Using A Scalable Two-stage U-Net

要約

熱赤外 (TIR) 画像を可視光 (VI) 画像に変換することは、TIR-VI 画像の位置合わせや融合など、さまざまな領域にまたがる潜在的なアプリケーションを伴う困難な作業です。
TIR 画像変換から得られる補足情報を活用すると、これらのアプリケーション全体でモデルのパフォーマンスと一般化を大幅に向上させることができます。
ただし、この分野で一般的な問題には、最適ではない画像忠実度やモデルのスケーラビリティの制限などが含まれます。
この論文では、U-Net アーキテクチャに基づくアルゴリズム LadleNet を紹介します。
LadleNet は 2 段階の U-Net 連結構造を採用しており、スキップ接続と洗練された特徴集約技術で強化されており、その結果、モデルのパフォーマンスが大幅に向上します。
「ハンドル」モジュールと「ボウル」モジュールで構成されている LadleNet のハンドル モジュールは、抽象的な意味空間の構築を容易にし、ボウル モジュールはこの意味空間をデコードしてマッピングされた VI イメージを生成します。
Handle モジュールは、そのネットワーク アーキテクチャをセマンティック セグメンテーション ネットワークに置き換えることができるため拡張性を示し、それによってより抽象的なセマンティック スペースを確立してモデルのパフォーマンスを強化します。
したがって、LadleNet の Handle モジュールを事前トレーニング済み DeepLabv3+ ネットワークに置き換える LadleNet+ を提案します。これにより、モデルに強化されたセマンティック空間構築機能が与えられます。
提案された方法は、定量的分析と定性的分析を伴って、KAIST データセットで評価およびテストされます。
既存の方法論と比較して、私たちのアプローチは画像の鮮明さと知覚品質の点で最先端のパフォーマンスを実現します。
ソース コードは https://github.com/Ach-1914/LadleNet/tree/main/ で公開されます。

要約(オリジナル)

The translation of thermal infrared (TIR) images to visible light (VI) images presents a challenging task with potential applications spanning various domains such as TIR-VI image registration and fusion. Leveraging supplementary information derived from TIR image conversions can significantly enhance model performance and generalization across these applications. However, prevailing issues within this field include suboptimal image fidelity and limited model scalability. In this paper, we introduce an algorithm, LadleNet, based on the U-Net architecture. LadleNet employs a two-stage U-Net concatenation structure, augmented with skip connections and refined feature aggregation techniques, resulting in a substantial enhancement in model performance. Comprising ‘Handle’ and ‘Bowl’ modules, LadleNet’s Handle module facilitates the construction of an abstract semantic space, while the Bowl module decodes this semantic space to yield mapped VI images. The Handle module exhibits extensibility by allowing the substitution of its network architecture with semantic segmentation networks, thereby establishing more abstract semantic spaces to bolster model performance. Consequently, we propose LadleNet+, which replaces LadleNet’s Handle module with the pre-trained DeepLabv3+ network, thereby endowing the model with enhanced semantic space construction capabilities. The proposed method is evaluated and tested on the KAIST dataset, accompanied by quantitative and qualitative analyses. Compared to existing methodologies, our approach achieves state-of-the-art performance in terms of image clarity and perceptual quality. The source code will be made available at https://github.com/Ach-1914/LadleNet/tree/main/.

arxiv情報

著者 Tonghui Zou,Lei Chen
発行日 2023-09-08 13:03:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV パーマリンク