SSDiff: Spatial-spectral Integrated Diffusion Model for Remote Sensing Pansharpening

要約

パンシャープニングは、リモート センシング画像の空間内容とスペクトル特性を結合して高解像度のマルチスペクトル画像を生成する重要な画像融合技術です。
最近、ノイズ除去拡散確率モデルが視覚タスクに徐々に適用され、低ランク適応 (LoRA) による制御可能な画像生成が強化されています。
この論文では、SSDiffと呼ばれるリモートセンシングパンシャープニングタスク用の空間スペクトル統合拡散モデルを紹介します。このモデルは、部分空間分解の観点から、パンシャープンプロセスを空間成分とスペクトル成分の融合プロセスとみなします。
具体的には、SSDiff は空間ブランチとスペクトル ブランチを利用して空間の詳細とスペクトルの特徴を個別に学習し、設計された交互投影融合モジュール (APFM) を使用して融合を実現します。
さらに、ブランチ間の周波数分布を変調する周波数変調ブランチ間モジュール (FMIM) を提案します。
SSDiff の 2 つのコンポーネントは、LoRA のような分岐ごとの代替微調整方法を利用する場合、APFM に対して有利に実行できます。
SSDiff を改良して、コンポーネントを識別する特徴をより十分に捕捉します。
最後に、一般的に使用される 4 つのデータセット (WorldView-3、WorldView-2、GaoFen-2、QuickBird) に対する広範な実験により、SSDiff の優位性が視覚的にも定量的にも実証されました。
コードは、受け入れられる可能性があればオープンソース化されます。

要約(オリジナル)

Pansharpening is a significant image fusion technique that merges the spatial content and spectral characteristics of remote sensing images to generate high-resolution multispectral images. Recently, denoising diffusion probabilistic models have been gradually applied to visual tasks, enhancing controllable image generation through low-rank adaptation (LoRA). In this paper, we introduce a spatial-spectral integrated diffusion model for the remote sensing pansharpening task, called SSDiff, which considers the pansharpening process as the fusion process of spatial and spectral components from the perspective of subspace decomposition. Specifically, SSDiff utilizes spatial and spectral branches to learn spatial details and spectral features separately, then employs a designed alternating projection fusion module (APFM) to accomplish the fusion. Furthermore, we propose a frequency modulation inter-branch module (FMIM) to modulate the frequency distribution between branches. The two components of SSDiff can perform favorably against the APFM when utilizing a LoRA-like branch-wise alternative fine-tuning method. It refines SSDiff to capture component-discriminating features more sufficiently. Finally, extensive experiments on four commonly used datasets, i.e., WorldView-3, WorldView-2, GaoFen-2, and QuickBird, demonstrate the superiority of SSDiff both visually and quantitatively. The code will be made open source after possible acceptance.

arxiv情報

著者 Yu Zhong,Xiao Wu,Liang-Jian Deng,Zihan Cao
発行日 2024-04-17 16:30:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク