Scaling-Up the Pretraining of the Earth Observation Foundation Model PhilEO to the MajorTOM Dataset

要約

今日、地球観測(EO)衛星は大量のデータを生成し、コペルニクスセンチネル2コンステレーションだけで1日あたり約1.6TBが生成されます。
この情報を完全に活用するには、EO Foundationモデル(FMS)を大規模なラベル付けされたデータセットでプレイすることが不可欠であり、最小限のラベル付きデータを備えたいくつかの異なる下流タスクの効率的な微調整を可能にします。
この作業では、最近提案されたEO財団モデルであるPhileo Geo-Aware U-Netのスケーリングを提示します。
さまざまな数のパラメーターとアーキテクチャを備えたさまざまなPhileoモデルバリアントを開発および研究しています。
最後に、道路密度の推定、構築密度ピクセルごとの回帰、土地被覆セマンティックセグメンテーションのために、Phileoベンチのモデルを微調整し、パフォーマンスを評価します。
我々の結果は、道路密度回帰のためのすべてのNショットについて、Phileo 44M Majortom 23TBモデルがPhileo Globe 0.5TB 44Mを上回ることを示しています。
また、道路密度の推定と構築密度回帰のためのほとんどのNショットについて、Phileo 200m FastTomが他のすべてのモデルよりも優れていることを示しています。
データセットとモデルのスケーリングの両方の有効性は、Phileoベンチを使用して検証されます。
また、U-net畳み込みニューラルネットワーク(CNN)から視覚変圧器(VIT)に移行するアーキテクチャスケーリングの影響を研究します。

要約(オリジナル)

Today, Earth Observation (EO) satellites generate massive volumes of data, with the Copernicus Sentinel-2 constellation alone producing approximately 1.6TB per day. To fully exploit this information, it is essential to pretrain EO Foundation Models (FMs) on large unlabeled datasets, enabling efficient fine-tuning for several different downstream tasks with minimal labeled data. In this work, we present the scaling-up of our recently proposed EO Foundation Model, PhilEO Geo-Aware U-Net, on the unlabeled 23TB dataset MajorTOM, which covers the vast majority of the Earth’s surface, as well as on the specialized subset FastTOM 2TB that does not include oceans and ice. We develop and study various PhilEO model variants with different numbers of parameters and architectures. Finally, we fine-tune the models on the PhilEO Bench for road density estimation, building density pixel-wise regression, and land cover semantic segmentation, and we evaluate the performance. Our results demonstrate that for all n-shots for road density regression, the PhilEO 44M MajorTOM 23TB model outperforms PhilEO Globe 0.5TB 44M. We also show that for most n-shots for road density estimation and building density regression, PhilEO 200M FastTOM outperforms all the other models. The effectiveness of both dataset and model scaling is validated using the PhilEO Bench. We also study the impact of architecture scaling, transitioning from U-Net Convolutional Neural Networks (CNN) to Vision Transformers (ViT).

arxiv情報

著者 Nikolaos Dionelis,Jente Bosmans,Riccardo Musto,Giancarlo Paoletti,Simone Sarti,Giacomo Cascarano,Casper Fibaek,Luke Camilleri,Bertrand Le Saux,Nicolas Longépé
発行日 2025-06-17 17:58:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク