RS5M: A Large Scale Vision-Language Dataset for Remote Sensing Vision-Language Foundation Model

要約

広範な画像とテキストのペアデータを利用した事前トレーニング済みの視覚言語基盤モデルは、前例のない画像とテキストの関連付け機能を実証し、さまざまな下流タスクにわたって顕著な結果を達成しました。
重要な課題は、共通のオブジェクトでトレーニングされた既存の大規模な事前トレーニング済み VLM をどのように利用して、ドメイン関連のダウンストリーム タスクを達成するためのドメイン固有の転送を実行するかです。
このペーパーでは、一般基盤モデル (GFM) とドメイン固有の下流タスクの間のギャップを埋める、ドメイン基盤モデル (DFM) を含む新しいフレームワークを提案します。
さらに、リモート センシング (RS) の分野における画像とテキストのペアのデータセットである RS5M を紹介します。これには、英語の説明が付いた 500 万枚の RS 画像が含まれています。
このデータセットは、公開されている画像とテキストのペアのデータセットをフィルタリングし、事前トレーニングされた VLM を使用してラベルのみの RS データセットにキャプションを付けることで取得されます。
これらは、最初の大規模な RS 画像とテキストのペア データセットを構成します。
さらに、DFM を実装するために RS5M でいくつかのパラメータ効率の良い微調整方法を試しました。
実験結果は、提案したデータセットがさまざまなタスクに対して非常に効果的であり、ゼロショット分類タスクでベースラインを $8 \% \sim 16 \%$ 改善し、視覚言語検索タスクと意味ローカリゼーション タスクの両方で良好な結果が得られることを示しています。
最後に、RS5M を使用して RS 安定拡散モデルをトレーニングした成功した結果を示し、データセットのさらなるユースケースを明らかにします。

要約(オリジナル)

Pre-trained Vision-Language Foundation Models utilizing extensive image-text paired data have demonstrated unprecedented image-text association capabilities, achieving remarkable results across various downstream tasks. A critical challenge is how to make use of existing large-scale pre-trained VLMs, which are trained on common objects, to perform the domain-specific transfer for accomplishing domain-related downstream tasks. In this paper, we propose a new framework that includes the Domain Foundation Model (DFM), bridging the gap between the General Foundation Model (GFM) and domain-specific downstream tasks. Moreover, we present an image-text paired dataset in the field of remote sensing (RS), RS5M, which has 5 million RS images with English descriptions. The dataset is obtained from filtering publicly available image-text paired datasets and captioning label-only RS datasets with pre-trained VLM. These constitute the first large-scale RS image-text paired dataset. Additionally, we tried several Parameter-Efficient Fine-Tuning methods on RS5M to implement the DFM. Experimental results show that our proposed dataset are highly effective for various tasks, improving upon the baseline by $8 \% \sim 16 \%$ in zero-shot classification tasks, and obtaining good results in both Vision-Language Retrieval and Semantic Localization tasks. Finally, we show successful results of training the RS Stable Diffusion model using the RS5M, uncovering more use cases of the dataset.

arxiv情報

著者 Zilun Zhang,Tiancheng Zhao,Yulong Guo,Jianwei Yin
発行日 2023-06-20 05:30:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM パーマリンク