要約
地球観測衛星の数が増えているため、さまざまな空間、スペクトル、および時間的構成を備えた、ますます多様なリモートセンシングデータが生じています。
ほとんどの既存のモデルは、固定された入力形式とモダリティ固有のエンコーダーに依存しています。これは、新しい構成が導入されたときに再トレーニングが必要であり、モダリティ全体で一般化する能力を制限します。
リモートセンシング画像をスカラーのセットとして表す柔軟なアーキテクチャであるAtomizerを紹介します。
各スカラーには、コンテキストメタデータ(取得時間、空間分解能、波長、帯域幅)が濃縮されており、単一のエンコーダーが補間や再サンプリングなしで任意のモダリティを処理できる原子表現を生成します。
Atomizerは、フーリエ機能と不均一な放射状基底関数を使用した構造化されたトークン化を使用して、コンテンツとコンテキストをエンコードし、クロスアテナンスを介してトークンを潜在空間にマッピングします。
Modality-Disjoint評価では、Atomizerは標準モデルを上回り、さまざまな解像度と空間サイズで堅牢なパフォーマンスを示します。
要約(オリジナル)
The growing number of Earth observation satellites has led to increasingly diverse remote sensing data, with varying spatial, spectral, and temporal configurations. Most existing models rely on fixed input formats and modality-specific encoders, which require retraining when new configurations are introduced, limiting their ability to generalize across modalities. We introduce Atomizer, a flexible architecture that represents remote sensing images as sets of scalars, each corresponding to a spectral band value of a pixel. Each scalar is enriched with contextual metadata (acquisition time, spatial resolution, wavelength, and bandwidth), producing an atomic representation that allows a single encoder to process arbitrary modalities without interpolation or resampling. Atomizer uses structured tokenization with Fourier features and non-uniform radial basis functions to encode content and context, and maps tokens into a latent space via cross-attention. Under modality-disjoint evaluations, Atomizer outperforms standard models and demonstrates robust performance across varying resolutions and spatial sizes.
arxiv情報
著者 | Hugo Riffaud de Turckheim,Sylvain Lobry,Roberto Interdonato,Diego Marcos |
発行日 | 2025-06-16 14:30:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google