要約
CLIP などの事前トレーニング済みビジョン言語モデル (VLM) は、自由形式のプロンプトを使用して優れたゼロショット分類機能を実証し、特殊な領域での一般化も示します。
ただし、主に地上レベルの画像で構成されているトレーニング セットではそのようなデータが過小評価されているため、衛星画像でのパフォーマンスは制限されています。
衛星画像に関する既存のプロンプト手法は、多くの場合、「衛星画像 ~ 」のような一般的なフレーズに制限されており、ゼロショットの土地利用および土地被覆 (LULC) マッピングの有効性が制限されています。
これらの課題に対処するために、ヨーロッパ全土からのジオタグ付き地上写真と組み合わせた Sentinel-2 画像の大規模なデータセットを活用することで、CLIP 表現を Sentinel-2 画像に転送する SenCLIP を導入します。
私たちは、EuroSAT と BigEarthNet データセットを使用し、空中と地上レベルの両方のプロンプト スタイルを使用して、ゼロショット LULC マッピング タスクで他の SOTA リモート センシング VLM と並行して SenCLIP を評価します。
地上レベルの表現を衛星画像と一致させる私たちのアプローチは、両方のプロンプト スタイルにわたって分類精度が大幅に向上していることを実証し、ゼロショット LULC マッピングに自由形式のテキスト記述を適用する新たな可能性を開きます。
要約(オリジナル)
Pre-trained vision-language models (VLMs), such as CLIP, demonstrate impressive zero-shot classification capabilities with free-form prompts and even show some generalization in specialized domains. However, their performance on satellite imagery is limited due to the underrepresentation of such data in their training sets, which predominantly consist of ground-level images. Existing prompting techniques for satellite imagery are often restricted to generic phrases like a satellite image of …, limiting their effectiveness for zero-shot land-use and land-cover (LULC) mapping. To address these challenges, we introduce SenCLIP, which transfers CLIPs representation to Sentinel-2 imagery by leveraging a large dataset of Sentinel-2 images paired with geotagged ground-level photos from across Europe. We evaluate SenCLIP alongside other SOTA remote sensing VLMs on zero-shot LULC mapping tasks using the EuroSAT and BigEarthNet datasets with both aerial and ground-level prompting styles. Our approach, which aligns ground-level representations with satellite imagery, demonstrates significant improvements in classification accuracy across both prompt styles, opening new possibilities for applying free-form textual descriptions in zero-shot LULC mapping.
arxiv情報
| 著者 | Pallavi Jain,Dino Ienco,Roberto Interdonato,Tristan Berchoux,Diego Marcos |
| 発行日 | 2024-12-11 16:52:14+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google