RS5M: A Large Scale Vision-Language Dataset for Remote Sensing Vision-Language Foundation Model

要約

膨大な画像とテキストのペアデータを利用した事前学習済み視覚言語基盤モデルは、前例のない画像とテキストの関連付け能力を実証し、様々な下流タスクで顕著な結果を達成している。しかし、既存の大規模な事前学習済みVLMをどのように活用するかは重要な課題である。VLMは共通のオブジェクトに対して学習されるが、ドメインに関連した下流タスクを達成するために、ドメインに特化した転送を行う。本論文では、ドメインファウンデーションモデル(DFM)を含む新しいフレームワークを提案し、一般的なファウンデーションモデル(GFM)とドメイン固有の下流タスクとのギャップを埋める。さらに、リモートセンシング(RS)分野の画像-テキストペアデータセットであるRS5Mを提示する。このデータセットは、一般に公開されている画像-テキストペアデータセットをフィルタリングし、事前に学習されたVLMを用いてラベルのみのRSデータセットにキャプションを付けて得られたものである。これらは最初の大規模なRS画像-テキストペアデータセットである。さらに、DFMを実装するために、RS5M上でいくつかのパラメータ効率の良い微調整法を試みた。実験の結果、我々の提案したデータセットは様々なタスクに対して非常に有効であり、ゼロショット分類タスクではベースラインより$8 ⊖% 16 ⊖%$向上し、視覚言語検索タスクと意味的ローカリゼーションタスクの両方で良好な結果を得た。\url{https://github.com/om-ai-lab/RS5M}

要約(オリジナル)

Pre-trained Vision-Language Foundation Models utilizing extensive image-text paired data have demonstrated unprecedented image-text association capabilities, achieving remarkable results across various downstream tasks. A critical challenge is how to make use of existing large-scale pre-trained VLMs, which are trained on common objects, to perform the domain-specific transfer for accomplishing domain-related downstream tasks. In this paper, we propose a new framework that includes the Domain Foundation Model (DFM), bridging the gap between the General Foundation Model (GFM) and domain-specific downstream tasks. Moreover, we present an image-text paired dataset in the field of remote sensing (RS), RS5M, which has 5 million RS images with English descriptions. The dataset is obtained from filtering publicly available image-text paired datasets and captioning label-only RS datasets with pre-trained VLM. These constitute the first large-scale RS image-text paired dataset. Additionally, we tried several Parameter-Efficient Fine-Tuning methods on RS5M to implement the DFM. Experimental results show that our proposed dataset are highly effective for various tasks, improving upon the baseline by $8 \% \sim 16 \%$ in zero-shot classification tasks, and obtaining good results in both Vision-Language Retrieval and Semantic Localization tasks. \url{https://github.com/om-ai-lab/RS5M}

arxiv情報

著者 Zilun Zhang,Tiancheng Zhao,Yulong Guo,Jianwei Yin
発行日 2023-08-31 22:33:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM パーマリンク