要約
自己学習学習(SSL)により、地球観察のためのVision Foundationモデルの開発が可能になり、多様なリモートセンシングタスク全体で強力な転送可能性が実証されています。
以前の作業では、ネットワークアーキテクチャとトレーニング戦略に焦点を当てていますが、特にトレーニング前のデータセットのバランスをとることと多様化におけるデータセットキュレーションの役割は、採用されていないままです。
EOでは、この課題は、衛星画像で一般的な冗長性と重尾の分布によって増幅され、偏った表現と非効率的なトレーニングにつながる可能性があります。
この作業では、データセットの多様性とバランスを最大化することにより、SSLの事前トレーニングを改善するために設計された動的なデータセット剪定戦略を提案します。
私たちの方法は、既存の機能抽出器を必要とせずにトレーニングセットを繰り返し改良し、キュレーションされたデータセットが制限または利用できないドメインに適しています。
海洋観測が支配する挑戦的なデータセットであるSentinel-1波モード(WV)合成開口レーダー(SAR)アーカイブに関するアプローチを実証します。
10年にわたるSentinel-1 WVアーカイブ全体でモデルをゼロから訓練します。
3つのダウンストリームタスクにわたって、我々の結果は、動的な剪定が計算効率と表現品質の両方を改善し、移動性が強くなることを示しています。
また、github.com/galeio-research/oceansar-models/で、SAR画像を使用した海洋観測と分析のための一連の基礎モデルであるOceansarファミリーの最初のモデルであるOceansar-1の重みをリリースします。
要約(オリジナル)
Self-supervised learning (SSL) has enabled the development of vision foundation models for Earth Observation (EO), demonstrating strong transferability across diverse remote sensing tasks. While prior work has focused on network architectures and training strategies, the role of dataset curation, especially in balancing and diversifying pre-training datasets, remains underexplored. In EO, this challenge is amplified by the redundancy and heavy-tailed distributions common in satellite imagery, which can lead to biased representations and inefficient training. In this work, we propose a dynamic dataset pruning strategy designed to improve SSL pre-training by maximizing dataset diversity and balance. Our method iteratively refines the training set without requiring a pre-existing feature extractor, making it well-suited for domains where curated datasets are limited or unavailable. We demonstrate our approach on the Sentinel-1 Wave Mode (WV) Synthetic Aperture Radar (SAR) archive, a challenging dataset dominated by ocean observations. We train models from scratch on the entire Sentinel-1 WV archive spanning 10 years. Across three downstream tasks, our results show that dynamic pruning improves both computational efficiency and representation quality, leading to stronger transferability. We also release the weights of OceanSAR-1, the first model in the OceanSAR family, a series of foundation models for ocean observation and analysis using SAR imagery, at github.com/galeio-research/OceanSAR-models/.
arxiv情報
著者 | Thomas Kerdreux,Alexandre Tuel,Quentin Febvre,Alexis Mouche,Bertrand Chapron |
発行日 | 2025-04-28 15:32:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google