SATIN: A Multi-Task Metadataset for Classifying Satellite Imagery using Vision-Language Models

要約

タイトル:SATIN:ビジョン-言語モデルを使用した衛星画像の分類のためのマルチタスクメタデータセット

要約:

– 遠隔センシング画像の解釈は、土地利用計画から森林破壊の監視まで、多数の下流のアプリケーションにつながります。
– 地球の地理的多様性のため、このデータの強力な分類は困難です。
– 多数の異なる衛星および航空画像分類データセットが存在するが、まだこの多様性を適切にカバーするベンチマークが存在しない。
– この研究では、27の既存の遠隔センシングデータセットからキュレーションされたメタデータセットであるSATellite ImageNet(SATIN)を紹介し、幅広いビジョン-言語(VL)モデルのゼロショット転移分類能力をSATINで包括的に評価する。
– SATINは、挑戦的なベンチマークであり、評価する最も強力な方法でも52.0%の分類精度を達成することができる。
– この重要な分野でVLモデルの進展を指導し、追跡するための$\text{public leaderboard}$を提供します。

要約(オリジナル)

Interpreting remote sensing imagery enables numerous downstream applications ranging from land-use planning to deforestation monitoring. Robustly classifying this data is challenging due to the Earth’s geographic diversity. While many distinct satellite and aerial image classification datasets exist, there is yet to be a benchmark curated that suitably covers this diversity. In this work, we introduce SATellite ImageNet (SATIN), a metadataset curated from 27 existing remotely sensed datasets, and comprehensively evaluate the zero-shot transfer classification capabilities of a broad range of vision-language (VL) models on SATIN. We find SATIN to be a challenging benchmark-the strongest method we evaluate achieves a classification accuracy of 52.0%. We provide a $\href{https://satinbenchmark.github.io}{\text{public leaderboard}}$ to guide and track the progress of VL models in this important domain.

arxiv情報

著者 Jonathan Roberts,Kai Han,Samuel Albanie
発行日 2023-04-23 11:23:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク