要約
広範な画像とテキストのペアデータを利用した事前トレーニング済み視覚言語モデル (VLM) は、前例のない画像とテキストの関連付け機能を実証し、さまざまな下流タスクにわたって顕著な結果を達成しました。
重要な課題は、共通のオブジェクトでトレーニングされた既存の大規模な事前トレーニング済み VLM をどのように利用して、ドメイン関連のダウンストリーム タスクを達成するためのドメイン固有の転送を実行するかです。
重要な課題は、共通のオブジェクトでトレーニングされた既存の大規模な事前トレーニング済み VLM をどのように利用して、ドメイン関連のダウンストリーム タスクを達成するためのドメイン固有の転送を実行するかです。
このペーパーでは、一般視覚言語モデル (GVLM) とドメイン固有の下流タスクの間のギャップを埋める、ドメイン事前トレーニング済み視覚言語モデル (DVLM) を含む新しいフレームワークを提案します。
さらに、リモート センシング (RS) の分野における画像とテキストのペアのデータセットである RS5M を紹介します。これには、英語の説明が付いた 500 万枚の RS 画像が含まれています。
このデータセットは、公開されている画像とテキストのペアのデータセットをフィルタリングし、事前トレーニングされた VLM を使用してラベルのみの RS データセットにキャプションを付けることで取得されます。
これらは、最初の大規模な RS 画像とテキストのペア データセットを構成します。
さらに、CLIP モデルを微調整し、RS5M でいくつかのパラメータ効率の良い微調整方法を試して DVLM を実装しました。
実験結果は、私たちが提案したデータセットがさまざまなタスクに対して非常に効果的であることを示しており、私たちのモデル GeoRSCLIP は、ゼロショット分類 (ZSC) においてベースラインまたは以前の最先端モデルを $3\%\sim20\%$ 改善しています。
リモート センシング クロスモーダル テキスト画像取得 (RSCTIR) タスクでは $3\%\sim6\%$、セマンティック ローカリゼーション (SeLo) タスクでは $4\%\sim5\%$ です。
データセットとモデルは \url{https://github.com/om-ai-lab/RS5M} でリリースされています。
要約(オリジナル)
Pre-trained Vision-Language Models (VLMs) utilizing extensive image-text paired data have demonstrated unprecedented image-text association capabilities, achieving remarkable results across various downstream tasks. A critical challenge is how to make use of existing large-scale pre-trained VLMs, which are trained on common objects, to perform the domain-specific transfer for accomplishing domain-related downstream tasks. A critical challenge is how to make use of existing large-scale pre-trained VLMs, which are trained on common objects, to perform the domain-specific transfer for accomplishing domain-related downstream tasks. In this paper, we propose a new framework that includes the Domain pre-trained Vision-Language Model (DVLM), bridging the gap between the General Vision-Language Model (GVLM) and domain-specific downstream tasks. Moreover, we present an image-text paired dataset in the field of remote sensing (RS), RS5M, which has 5 million RS images with English descriptions. The dataset is obtained from filtering publicly available image-text paired datasets and captioning label-only RS datasets with pre-trained VLM. These constitute the first large-scale RS image-text paired dataset. Additionally, we fine-tuned the CLIP model and tried several Parameter-Efficient Fine-Tuning methods on RS5M to implement the DVLM. Experimental results show that our proposed dataset is highly effective for various tasks, and our model GeoRSCLIP improves upon the baseline or previous state-of-the-art model by $3\%\sim20\%$ in Zero-shot Classification (ZSC), $3\%\sim6\%$ in Remote Sensing Cross-Modal Text-Image Retrieval (RSCTIR) and $4\%\sim5\%$ in Semantic Localization (SeLo) tasks. Dataset and models have been released in: \url{https://github.com/om-ai-lab/RS5M}.
arxiv情報
著者 | Zilun Zhang,Tiancheng Zhao,Yulong Guo,Jianwei Yin |
発行日 | 2024-01-02 14:18:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google