要約
リモートセンシングにおける豊富で適切にアノテーションされたマルチモーダルデータは、複雑なビジュアルリモートセンシング(RS)シーンを人間の言語と整合させるために極めて重要であり、多様なRS解釈タスクに特化したビジョン言語モデルの開発を可能にする。しかし、RS画像に豊富な言語セマンティクスを大規模にアノテーションするには、RSの専門知識と多大な人手が必要であり、コストがかかり、現実的でないことが多い。本研究では、大規模言語モデル(LLM)を活用し、Google Earth Engine (GEE)プラットフォームから提供された画像のプレーンなOpenStreetMap (OSM)データから、意味的にリッチなキャプションを持つマルチモーダルデータセットを大規模に生成するワークフローを提案する。このアプローチは、ペアになったリモートセンシングデータの生成を容易にし、オープンに利用可能なデータを使って容易にスケールアップすることができる。このフレームワークの中で、我々は130万枚以上のRS画像からなるマルチモーダルデータセット、RSTellerを紹介する。広範な実験により、RSTellerは継続的な事前学習により、RSシーン理解のための複数の既存の視覚言語モデルの性能を向上させることが実証された。我々の手法は、リモートセンシング画像の注釈付けに必要な手作業の労力と専門知識を大幅に削減すると同時に、高品質な注釈付きデータへのアクセスを民主化する。この進歩は視覚言語モデリングの進歩を促進し、リモートセンシング研究とアプリケーションへの幅広い参加を促す。RSTellerデータセットはhttps://github.com/SlytherinGe/RSTeller。
要約(オリジナル)
Abundant, well-annotated multimodal data in remote sensing are pivotal for aligning complex visual remote sensing (RS) scenes with human language, enabling the development of specialized vision language models across diverse RS interpretation tasks. However, annotating RS images with rich linguistic semantics at scale demands expertise in RS and substantial human labor, making it costly and often impractical. In this study, we propose a workflow that leverages large language models (LLMs) to generate multimodal datasets with semantically rich captions at scale from plain OpenStreetMap (OSM) data for images sourced from the Google Earth Engine (GEE) platform. This approach facilitates the generation of paired remote sensing data and can be readily scaled up using openly available data. Within this framework, we present RSTeller, a multimodal dataset comprising over 1.3 million RS images, each accompanied by two descriptive captions. Extensive experiments demonstrate that RSTeller enhances the performance of multiple existing vision language models for RS scene understanding through continual pre-training. Our methodology significantly reduces the manual effort and expertise needed for annotating remote sensing imagery while democratizing access to high-quality annotated data. This advancement fosters progress in visual language modeling and encourages broader participation in remote sensing research and applications. The RSTeller dataset is available at https://github.com/SlytherinGe/RSTeller.
arxiv情報
著者 | Junyao Ge,Xu Zhang,Yang Zheng,Kaitai Guo,Jimin Liang |
発行日 | 2025-02-03 09:57:01+00:00 |
arxivサイト | arxiv_id(pdf) |