要約
センチネルなどのシステムからのリモートセンシング画像は、約10メートルの解像度で地球の表面を完全にカバーします。
リモートセンシングコミュニティは、UcmercedやISPRS Vaihingenデータセットなどのベンチマークでの高いパフォーマンスにより、ディープラーニングモデルの広範な使用に移行しました。
UNETやResNetのバリエーションなどの畳み込みモデルは一般的にリモートセンシングに使用されますが、通常はRGB画像用に開発された3つのチャネルのみを受け入れますが、衛星システムは10以上を提供します。
最近、いくつかの変圧器アーキテクチャがリモートセンシングのために提案されていますが、それらは広範囲にベンチマークされておらず、通常、Salinas Valleyなどの小さなデータセットで使用されています。
一方、一部の国の第1レベルの管理部門全体で密な空間的な土地利用ラベルを取得することが可能になりつつあります。
スケーリング法の観察により、実質的に大きいマルチスペクトルトランスモデルが、これらの設定でリモートセンシングパフォーマンスに大きな飛躍をもたらす可能性があることが示唆されています。
この作業では、マルチスペクトル変圧器モデルのファミリーであるChromaformerを提案します。これは、モデルパラメーターの幅広い違いを評価して、ベルギーのフランダースの密にラベル付けされた画像データセットでのパフォーマンスとスケーリングの有効性を評価し、13,500 km^2を超える15クラスをカバーします。
新しいマルチスペクトルの注意戦略を提案し、アブレーションを通じてその有効性を実証します。
さらに、UNETなどの従来のアーキテクチャよりもはるかに大きいモデルモデルが実質的な精度の改善につながることを示しています。23Mパラメーターを持つUNET ++モデルは、655mパラメーターを持つマルチスペクトル変圧器がgan菌の生物学的評価マップで95%以上の精度を達成することを示しています。
要約(オリジナル)
Remote sensing imagery from systems such as Sentinel provides full coverage of the Earth’s surface at around 10-meter resolution. The remote sensing community has transitioned to extensive use of deep learning models due to their high performance on benchmarks such as the UCMerced and ISPRS Vaihingen datasets. Convolutional models such as UNet and ResNet variations are commonly employed for remote sensing but typically only accept three channels, as they were developed for RGB imagery, while satellite systems provide more than ten. Recently, several transformer architectures have been proposed for remote sensing, but they have not been extensively benchmarked and are typically used on small datasets such as Salinas Valley. Meanwhile, it is becoming feasible to obtain dense spatial land-use labels for entire first-level administrative divisions of some countries. Scaling law observations suggest that substantially larger multi-spectral transformer models could provide a significant leap in remote sensing performance in these settings. In this work, we propose ChromaFormer, a family of multi-spectral transformer models, which we evaluate across orders of magnitude differences in model parameters to assess their performance and scaling effectiveness on a densely labeled imagery dataset of Flanders, Belgium, covering more than 13,500 km^2 and containing 15 classes. We propose a novel multi-spectral attention strategy and demonstrate its effectiveness through ablations. Furthermore, we show that models many orders of magnitude larger than conventional architectures, such as UNet, lead to substantial accuracy improvements: a UNet++ model with 23M parameters achieves less than 65% accuracy, while a multi-spectral transformer with 655M parameters achieves over 95% accuracy on the Biological Valuation Map of Flanders.
arxiv情報
著者 | Mingshi Li,Dusan Grujicic,Ben Somers,Stien Heremans,Steven De Saeger,Matthew B. Blaschko |
発行日 | 2025-03-11 15:24:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google