要約
マルチモーダルリモートセンシング画像登録は、データの融合と分析のために、さまざまなセンサーの画像を調整します。
ただし、現在の方法は、画像ペアを大きな非線形放射測定の違いで整列させるときに、モダリティ不変の特徴を抽出できないことがよくあります。
この問題に対処するために、マルチモーダル画像のギャップを排除するために、新しいマルチモーダル画像登録フレームワークベースの画像からイメージへの翻訳であるOSDM-MREGを提案します。
第一に、マルチモーダル画像を統一ドメインに変換するために、新しいワンステップの標的誘導条件除去拡散性モデル(UTGOS-CDDPM)を提案します。
推論段階では、従来の条件付きDDPMは、多数の反復により翻訳されたソース画像を生成し、画像登録タスクを大幅に遅くします。
この問題に対処するために、翻訳されたソース画像の低周波機能の生成を促進するために、整理されていないTragetイメージを条件として使用します。
さらに、トレーニング段階では、翻訳された画像を直接予測する逆プロセスを追加して、翻訳されたソース画像をテスト段階で1つのステップで生成できるようにします。
さらに、翻訳されたソース画像の詳細機能を監督するために、翻訳された画像とグラウンドトゥルース画像の高周波機能の違いに焦点を当てた新しい知覚的損失を提案します。
最後に、マルチモーダルマルチスケール画像登録ネットワーク(MM-REG)は、提案されたマルチモーダル機能融合戦略により、ユニモーダル画像とマルチモーダル画像のマルチモーダル機能を融合します。
実験は、特にSAR光学的画像ペアのさまざまなマルチモーダル登録タスクにわたる優れた精度と効率を示しています。
要約(オリジナル)
Multimodal remote sensing image registration aligns images from different sensors for data fusion and analysis. However, current methods often fail to extract modality-invariant features when aligning image pairs with large nonlinear radiometric differences. To address this issues, we propose OSDM-MReg, a novel multimodal image registration framework based image-to-image translation to eliminate the gap of multimodal images. Firstly, we propose a novel one-step unaligned target-guided conditional denoising diffusion probabilistic models(UTGOS-CDDPM)to translate multimodal images into a unified domain. In the inference stage, traditional conditional DDPM generate translated source image by a large number of iterations, which severely slows down the image registration task. To address this issues, we use the unaligned traget image as a condition to promote the generation of low-frequency features of the translated source image. Furthermore, during the training stage, we add the inverse process of directly predicting the translated image to ensure that the translated source image can be generated in one step during the testing stage. Additionally, to supervised the detail features of translated source image, we propose a new perceptual loss that focuses on the high-frequency feature differences between the translated and ground-truth images. Finally, a multimodal multiscale image registration network (MM-Reg) fuse the multimodal feature of the unimodal images and multimodal images by proposed multimodal feature fusion strategy. Experiments demonstrate superior accuracy and efficiency across various multimodal registration tasks, particularly for SAR-optical image pairs.
arxiv情報
著者 | Xiaochen Wei,Weiwei Guo,Wenxian Yu,Feiming Wei,Dongying Li |
発行日 | 2025-04-08 13:32:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google