要約
広範な画像とテキストのペアデータを利用した事前トレーニング済みの視覚言語基盤モデルは、前例のない画像とテキストの関連付け機能を実証し、さまざまな下流タスクにわたって顕著な結果を達成しました。
重要な課題は、共通のオブジェクトでトレーニングされた既存の大規模な事前トレーニング済み VLM をどのように利用して、ドメイン関連のダウンストリーム タスクを達成するためのドメイン固有の転送を実行するかです。
このペーパーでは、一般基盤モデル (GFM) とドメイン固有の下流タスクの間のギャップを埋める、ドメイン基盤モデル (DFM) を含む新しいフレームワークを提案します。
さらに、リモート センシング (RS) の分野における画像とテキストのペアのデータセットである RS5M を紹介します。これには、英語の説明が付いた 500 万枚の RS 画像が含まれています。
このデータセットは、公開されている画像とテキストのペアのデータセットをフィルタリングし、事前トレーニングされた VLM を使用してラベルのみの RS データセットにキャプションを付けることで取得されます。
これらは、最初の大規模な RS 画像とテキストのペア データセットを構成します。
さらに、DFM を実装するために RS5M でいくつかのパラメータ効率の良い微調整方法を試しました。
実験結果は、提案したデータセットがさまざまなタスクに対して非常に効果的であり、ゼロショット分類タスクでベースラインを $8 \% \sim 16 \%$ 改善し、視覚言語検索タスクと意味ローカリゼーション タスクの両方で良好な結果が得られることを示しています。
最後に、RS5M を使用して RS 安定拡散モデルをトレーニングした成功した結果を示し、データセットのさらなるユースケースを明らかにします。
要約(オリジナル)
Pre-trained Vision-Language Foundation Models utilizing extensive image-text paired data have demonstrated unprecedented image-text association capabilities, achieving remarkable results across various downstream tasks. A critical challenge is how to make use of existing large-scale pre-trained VLMs, which are trained on common objects, to perform the domain-specific transfer for accomplishing domain-related downstream tasks. In this paper, we propose a new framework that includes the Domain Foundation Model (DFM), bridging the gap between the General Foundation Model (GFM) and domain-specific downstream tasks. Moreover, we present an image-text paired dataset in the field of remote sensing (RS), RS5M, which has 5 million RS images with English descriptions. The dataset is obtained from filtering publicly available image-text paired datasets and captioning label-only RS datasets with pre-trained VLM. These constitute the first large-scale RS image-text paired dataset. Additionally, we tried several Parameter-Efficient Fine-Tuning methods on RS5M to implement the DFM. Experimental results show that our proposed dataset are highly effective for various tasks, improving upon the baseline by $8 \% \sim 16 \%$ in zero-shot classification tasks, and obtaining good results in both Vision-Language Retrieval and Semantic Localization tasks. Finally, we show successful results of training the RS Stable Diffusion model using the RS5M, uncovering more use cases of the dataset.
arxiv情報
著者 | Zilun Zhang,Tiancheng Zhao,Yulong Guo,Jianwei Yin |
発行日 | 2023-06-20 05:30:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google