SkyScript: A Large and Semantically Diverse Vision-Language Dataset for Remote Sensing

要約

リモート センシング画像は、持続可能な開発目標の達成や気候変動への取り組みに広く応用されているにもかかわらず、多用途でタスクに依存しないビジョン言語モデル (VLM) の最近の進歩の恩恵をまだ受けていません。
主な理由は、VLM の開発に必要な大規模で意味的に多様な画像テキスト データセットがリモート センシング画像にはまだ存在しないことです。
自然画像とは異なり、リモート センシング画像とそれに関連するテキストの説明は、公共のインターネットから大規模に効率的に収集することができません。
この研究では、地理座標を使用してオープンでラベルのないリモート センシング画像を OpenStreetMap でカバーされる豊富なセマンティクスと自動的に接続することでこのギャップを埋め、260 万枚の画像で構成されるリモート センシング画像用の包括的な視覚言語データセットである SkyScript を構築します。
29K の異なるセマンティック タグをカバーするテキスト ペア。
このデータセットでの継続的な事前トレーニングにより、7 つのベンチマーク データセットにわたるゼロショット シーン分類の平均精度が 6.2% 向上し、ベースライン モデルを上回る VLM が得られました。
また、きめ細かいオブジェクト属性分類とクロスモーダル検索のためのゼロショット転送の機能も実証します。
このデータセットが、オープン語彙の分類、検索、キャプション付け、テキストと画像の合成など、リモート センシングにおけるさまざまなマルチモーダル タスクの VLM の進歩をサポートできることを願っています。

要約(オリジナル)

Remote sensing imagery, despite its broad applications in helping achieve Sustainable Development Goals and tackle climate change, has not yet benefited from the recent advancements of versatile, task-agnostic vision language models (VLMs). A key reason is that the large-scale, semantically diverse image-text dataset required for developing VLMs is still absent for remote sensing images. Unlike natural images, remote sensing images and their associated text descriptions cannot be efficiently collected from the public Internet at scale. In this work, we bridge this gap by using geo-coordinates to automatically connect open, unlabeled remote sensing images with rich semantics covered in OpenStreetMap, and thus construct SkyScript, a comprehensive vision-language dataset for remote sensing images, comprising 2.6 million image-text pairs covering 29K distinct semantic tags. With continual pre-training on this dataset, we obtain a VLM that surpasses baseline models with a 6.2% average accuracy gain in zero-shot scene classification across seven benchmark datasets. It also demonstrates the ability of zero-shot transfer for fine-grained object attribute classification and cross-modal retrieval. We hope this dataset can support the advancement of VLMs for various multi-modal tasks in remote sensing, such as open-vocabulary classification, retrieval, captioning, and text-to-image synthesis.

arxiv情報

著者 Zhecheng Wang,Rajanie Prabha,Tianyuan Huang,Jiajun Wu,Ram Rajagopal
発行日 2023-12-20 09:19:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク