要約
リモートセンシングでは、同じシーンをキャプチャするさまざまなセンサーのマルチモーダルデータが豊富な機会を提供しますが、これらのモダリティ全体で統一された表現を学ぶことは依然として重要な課題です。
従来の方法は、多くの場合、単一またはデュアルモダリティアプローチに限定されています。
この論文では、主要なTOMデータセットからの光学、レーダー、および標高データで訓練された生成拡散モデルであるCop-Gen-Betaを紹介します。
Cop-Gen-Betaを際立たせているのは、モダリティのサブセットを他の任意の任意のものにマッピングする能力であり、トレーニング後にゼロショットモダリティ翻訳を可能にします。
これは、各モダリティが独自のタイムステップ埋め込みによって制御されるシーケンスベースの拡散トランスを通じて達成されます。
主要なTOMデータセットのサムネイル画像でCop-Gen-betaを広範囲に評価し、高品質のサンプルを生成する際の有効性を示しています。
定性的および定量的評価モデルのパフォーマンスを検証し、将来のリモートセンシングタスクの強力な事前訓練モデルとしての可能性を強調します。
要約(オリジナル)
In remote sensing, multi-modal data from various sensors capturing the same scene offers rich opportunities, but learning a unified representation across these modalities remains a significant challenge. Traditional methods have often been limited to single or dual-modality approaches. In this paper, we introduce COP-GEN-Beta, a generative diffusion model trained on optical, radar, and elevation data from the Major TOM dataset. What sets COP-GEN-Beta apart is its ability to map any subset of modalities to any other, enabling zero-shot modality translation after training. This is achieved through a sequence-based diffusion transformer, where each modality is controlled by its own timestep embedding. We extensively evaluate COP-GEN-Beta on thumbnail images from the Major TOM dataset, demonstrating its effectiveness in generating high-quality samples. Qualitative and quantitative evaluations validate the model’s performance, highlighting its potential as a powerful pre-trained model for future remote sensing tasks.
arxiv情報
著者 | Miguel Espinosa,Valerio Marsocci,Yuru Jia,Elliot J. Crowley,Mikolaj Czerkawski |
発行日 | 2025-04-11 14:00:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google