CrossDiff: Exploring Self-Supervised Representation of Pansharpening via Cross-Predictive Diffusion Model

要約

パンクロマティック (PAN) 画像と対応するマルチスペクトル (MS) 画像の融合はパンシャープニングとも呼ばれ、PAN の豊富な空間詳細と MS のスペクトル情報を組み合わせることが目的です。
高解像度の MS 画像がないため、利用可能な深層学習ベースの手法は通常、低解像度でのトレーニングと、低解像度と最大解像度の両方でのテストのパラダイムに従います。
元の MS および PAN 画像を入力として取得すると、スケールの変動により常に次善の結果が得られます。
この論文では、CrossDiff という名前の相互予測拡散モデルを設計することにより、パンシャープニングの自己教師あり表現を探索することを提案します。
2段階のトレーニングを行っております。
第 1 段階では、条件付き DDPM に基づいて UNet 構造を事前トレーニングするためのクロス予測プレテキスト タスクを導入します。第 2 段階では、UNet のエンコーダーをフリーズして、PAN と MS から空間およびスペクトルの特徴を直接抽出します。
フュージョン ヘッドのみがパンシャープニング タスクに適応するようにトレーニングされます。
広範な実験により、最先端の教師ありおよび教師なしの方法と比較した、提案されたモデルの有効性と優位性が示されています。
さらに、クロスセンサー実験では、他の衛星のデータセットに対して提案された自己教師あり表現学習器の一般化能力も検証されます。
再現性を確保するためにコードを公開します。

要約(オリジナル)

Fusion of a panchromatic (PAN) image and corresponding multispectral (MS) image is also known as pansharpening, which aims to combine abundant spatial details of PAN and spectral information of MS. Due to the absence of high-resolution MS images, available deep-learning-based methods usually follow the paradigm of training at reduced resolution and testing at both reduced and full resolution. When taking original MS and PAN images as inputs, they always obtain sub-optimal results due to the scale variation. In this paper, we propose to explore the self-supervised representation of pansharpening by designing a cross-predictive diffusion model, named CrossDiff. It has two-stage training. In the first stage, we introduce a cross-predictive pretext task to pre-train the UNet structure based on conditional DDPM, while in the second stage, the encoders of the UNets are frozen to directly extract spatial and spectral features from PAN and MS, and only the fusion head is trained to adapt for pansharpening task. Extensive experiments show the effectiveness and superiority of the proposed model compared with state-of-the-art supervised and unsupervised methods. Besides, the cross-sensor experiments also verify the generalization ability of proposed self-supervised representation learners for other satellite’s datasets. We will release our code for reproducibility.

arxiv情報

著者 Yinghui Xing,Litao Qu,ShiZhou Zhang,Xiuwei Zhang,Yanning Zhang
発行日 2024-01-10 13:32:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク