Language-Depth Navigated Thermal and Visible Image Fusion

要約

深さ誘導マルチモーダルフュージョンは、可視および赤外線画像から深さ情報を組み合わせて、3D再構築およびロボット工学アプリケーションのパフォーマンスを大幅に向上させます。
既存の熱可視画像融合は、主に検出タスクに焦点を当てており、深さなどの他の重要な情報を無視しています。
低光および複雑な環境での単一のモダリティの制限に対処することにより、融合画像からの深さ情報は、より正確なポイントクラウドデータを生成するだけでなく、3D再構成の完全性と精度を向上させるだけでなく、ロボットナビゲーション、ローカリゼーション、環境認識の包括的なシーン理解も提供します。
これは、自律運転や救助ミッションなどのアプリケーションでの正確な認識と効率的な運用をサポートします。
テキスト誘導および深さ駆動型の赤外線と目に見える画像融合ネットワークを紹介します。
このモデルは、テキスト誘導モジュールと2つの補助深度推定分岐を装備した拡散モデルを介してマルチチャネル補完情報を抽出するための画像融合分岐で構成されています。
Fusion Branchは、クリップを使用して、深さが豊富な画像の説明からセマンティック情報とパラメーターを抽出し、マルチチャネル機能を抽出し、融合画像を生成する拡散モデルを導きます。
これらの融合画像は、深度推定分岐に入力して、深さ駆動型の損失を計算し、画像融合ネットワークを最適化します。
このフレームワークは、ビジョン言語と深さを統合して、マルチモーダル入力から色融合画像を直接生成することを目的としています。

要約(オリジナル)

Depth-guided multimodal fusion combines depth information from visible and infrared images, significantly enhancing the performance of 3D reconstruction and robotics applications. Existing thermal-visible image fusion mainly focuses on detection tasks, ignoring other critical information such as depth. By addressing the limitations of single modalities in low-light and complex environments, the depth information from fused images not only generates more accurate point cloud data, improving the completeness and precision of 3D reconstruction, but also provides comprehensive scene understanding for robot navigation, localization, and environmental perception. This supports precise recognition and efficient operations in applications such as autonomous driving and rescue missions. We introduce a text-guided and depth-driven infrared and visible image fusion network. The model consists of an image fusion branch for extracting multi-channel complementary information through a diffusion model, equipped with a text-guided module, and two auxiliary depth estimation branches. The fusion branch uses CLIP to extract semantic information and parameters from depth-enriched image descriptions to guide the diffusion model in extracting multi-channel features and generating fused images. These fused images are then input into the depth estimation branches to calculate depth-driven loss, optimizing the image fusion network. This framework aims to integrate vision-language and depth to directly generate color-fused images from multimodal inputs.

arxiv情報

著者 Jinchang Zhang,Zijun Li,Guoyu Lu
発行日 2025-03-11 17:55:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク