要約
夜間や視界の悪い環境などの極端なシナリオでは、信頼性の高い認識を実現することが、自動運転、ロボット工学、監視などのアプリケーションにとって重要です。
マルチモダリティ画像融合、特に赤外線イメージングの統合は、さまざまなモダリティからの補完的な情報を組み合わせて、シーンの理解と意思決定を強化することで堅牢なソリューションを提供します。
しかし、現在の方法は重大な制限に直面しています。GAN ベースのアプローチでは、きめの細かい詳細が欠如したぼやけた画像が生成されることがよくありますが、AE ベースの方法では特定のモダリティに対するバイアスが導入され、不自然な融合結果が生じる可能性があります。
これらの課題に対処するために、私たちは、鮮明で自然な融合画像を生成する新しい 2 相識別オートエンコーダ フレームワークである DAE-Fuse を提案します。
さらに、フレーム間の時間的一貫性を維持しながら、静止画像からビデオ領域まで画像融合技術を拡張する先駆者となり、自律ナビゲーションに必要な知覚能力を向上させます。
公開データセットでの広範な実験により、DAE-Fuse が複数のベンチマークで最先端のパフォーマンスを達成し、医療画像融合などのタスクに対して優れた汎用性を備えていることが実証されました。
要約(オリジナル)
In extreme scenarios such as nighttime or low-visibility environments, achieving reliable perception is critical for applications like autonomous driving, robotics, and surveillance. Multi-modality image fusion, particularly integrating infrared imaging, offers a robust solution by combining complementary information from different modalities to enhance scene understanding and decision-making. However, current methods face significant limitations: GAN-based approaches often produce blurry images that lack fine-grained details, while AE-based methods may introduce bias toward specific modalities, leading to unnatural fusion results. To address these challenges, we propose DAE-Fuse, a novel two-phase discriminative autoencoder framework that generates sharp and natural fused images. Furthermore, We pioneer the extension of image fusion techniques from static images to the video domain while preserving temporal consistency across frames, thus advancing the perceptual capabilities required for autonomous navigation. Extensive experiments on public datasets demonstrate that DAE-Fuse achieves state-of-the-art performance on multiple benchmarks, with superior generalizability to tasks like medical image fusion.
arxiv情報
著者 | Yuchen Guo,Ruoxiang Xu,Rongcheng Li,Zhenghao Wu,Weifeng Su |
発行日 | 2024-12-24 15:22:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google