CAT: A Conditional Adaptation Tailor for Efficient and Effective Instance-Specific Pansharpening on Real-World Data

要約

Pansharpeningは、高解像度のパンクロマティック(PAN)画像と低解像度のマルチスペクトル(LRMS)画像を融合して、高解像度のマルチスペクトル(HRMS)画像を生成する重要なリモートセンシング技術です。
ディープラーニング技術はパンシャープを大幅に進めていますが、多くの既存の方法は、限られたクロスセンサーの一般化と高い計算オーバーヘッドに悩まされ、リアルタイムアプリケーションを制限しています。
これらの課題に対処するために、特定の入力インスタンスに迅速に適応する効率的なフレームワークを提案し、短時間でトレーニングと推論の両方を完了します。
私たちのフレームワークは、入力画像を複数のパッチに分割し、監視されていない猫トレーニングのサブセットを選択し、すべてのパッチで推論を実行し、最終出力に縫います。
機能抽出と事前に訓練されたネットワークのチャネル変換段階の間に統合されたCATモジュールは、融合機能を調整し、効率的な推論のためにパラメーターを修正し、改善された結果を生成します。
私たちのアプローチは、2つの重要な利点を提供します。(1)$ \ TextIT {一般化能力の改善} $:クロスセンサーの劣化を緩和することにより、モデル – 特定のデータセットで事前に訓練されていますが、他のセンサーによってキャプチャされたデータセットの優れたパフォーマンスを達成します。
(2)$ \ textIT {Enhanced Computational Efficiency} $:CAT強化ネットワークは、大規模なデータ再トレーニングを必要とせずに、単一のLRMS-PANペア入力を使用してテストサンプルに迅速に適応できます。
Worldview-3およびWorldview-2データセットの実際のデータに関する実験は、この方法がクロスセンサーの実世界データで最先端のパフォーマンスを達成し、$ 512 \ Times512 $画像の両方のトレーニングと推論の両方を達成し、$ 4000 $ 4000 $ 4000 $の画像を$ 4000 $ 4000の画像で$ 4000 $ 4000の画像で達成することを示しています。
一般的に使用されるRTX 3090 GPU。

要約(オリジナル)

Pansharpening is a crucial remote sensing technique that fuses low-resolution multispectral (LRMS) images with high-resolution panchromatic (PAN) images to generate high-resolution multispectral (HRMS) imagery. Although deep learning techniques have significantly advanced pansharpening, many existing methods suffer from limited cross-sensor generalization and high computational overhead, restricting their real-time applications. To address these challenges, we propose an efficient framework that quickly adapts to a specific input instance, completing both training and inference in a short time. Our framework splits the input image into multiple patches, selects a subset for unsupervised CAT training, and then performs inference on all patches, stitching them into the final output. The CAT module, integrated between the feature extraction and channel transformation stages of a pre-trained network, tailors the fused features and fixes the parameters for efficient inference, generating improved results. Our approach offers two key advantages: (1) $\textit{Improved Generalization Ability}$: by mitigating cross-sensor degradation, our model–although pre-trained on a specific dataset–achieves superior performance on datasets captured by other sensors; (2) $\textit{Enhanced Computational Efficiency}$: the CAT-enhanced network can swiftly adapt to the test sample using the single LRMS-PAN pair input, without requiring extensive large-scale data retraining. Experiments on the real-world data from WorldView-3 and WorldView-2 datasets demonstrate that our method achieves state-of-the-art performance on cross-sensor real-world data, while achieving both training and inference of $512\times512$ image within $\textit{0.4 seconds}$ and $4000\times4000$ image within $\textit{3 seconds}$ at the fastest setting on a commonly used RTX 3090 GPU.

arxiv情報

著者 Tianyu Xin,Jin-Liang Xiao,Zeyu Xia,Shan Yin,Liang-Jian Deng
発行日 2025-06-12 17:48:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク