要約
地球観測のための最初の生成的なマルチモーダル基礎モデル(EO)であるTerramindを提示します。
他のマルチモーダルモデルとは異なり、Terramindは、モダリティ全体のトークンレベルとピクセルレベルの両方のデータを組み合わせたデュアルスケール表現で事前に処理されています。
トークンレベルでは、Terramindは高レベルのコンテキスト情報をエンコードしてクロスモーダルの関係を学習しますが、ピクセルレベルでは、Terramindは微細な表現を活用して重要な空間的ニュアンスをキャプチャします。
グローバルで大規模なデータセットの9つの地理空間モダリティについてテラミンドを前処理しました。
この論文では、(i)Terramindのデュアルスケールの早期融合アプローチは、地球観察のためのゼロショットと少数のショットアプリケーションの範囲のロックを解除することを示しています。
eoがパンゲアのように。
事前トレーニングデータセット、モデルの重み、および私たちのコードは、許容ライセンスの下でオープンソースを受けています。
要約(オリジナル)
We present TerraMind, the first any-to-any generative, multimodal foundation model for Earth observation (EO). Unlike other multimodal models, TerraMind is pretrained on dual-scale representations combining both token-level and pixel-level data across modalities. On a token level, TerraMind encodes high-level contextual information to learn cross-modal relationships, while on a pixel level, TerraMind leverages fine-grained representations to capture critical spatial nuances. We pretrained TerraMind on nine geospatial modalities of a global, large-scale dataset. In this paper, we demonstrate that (i) TerraMind’s dual-scale early fusion approach unlocks a range of zero-shot and few-shot applications for Earth observation, (ii) TerraMind introduces ‘Thinking-in-Modalities’ (TiM) — the capability of generating additional artificial data during finetuning and inference to improve the model output — and (iii) TerraMind achieves beyond state-of-the-art performance in community-standard benchmarks for EO like PANGAEA. The pretraining dataset, the model weights, and our code are open-sourced under a permissive license.
arxiv情報
著者 | Johannes Jakubik,Felix Yang,Benedikt Blumenstiel,Erik Scheurer,Rocco Sedona,Stefano Maurogiovanni,Jente Bosmans,Nikolaos Dionelis,Valerio Marsocci,Niklas Kopp,Rahul Ramachandran,Paolo Fraccaro,Thomas Brunschwiler,Gabriele Cavallaro,Juan Bernabe-Moreno,Nicolas Longépé |
発行日 | 2025-06-11 17:44:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google