要約
自然画像領域における視覚的プロンプトの最近の進歩により、ユーザーはボックス、ポイント、自由形式などのさまざまな視覚的マークを通じて人工知能 (AI) ツールと対話できるようになりました。
ただし、自然画像とリモート センシング (RS) 画像の間には大きな違いがあるため、既存の視覚的プロンプト モデルは RS シナリオで課題に直面しています。
さらに、RS MLLM は主に画像レベルの RS データの解釈に焦点を当てており、言語命令との対話のみをサポートしているため、現実世界での柔軟性の高いアプリケーションは制限されています。
これらの制限に対処するために、EarthMarker という名前の新しい視覚的プロンプト モデルが提案されています。これは、画像レベル、領域レベル、およびポイント レベルの RS 画像解釈に優れています。
具体的には、大規模言語モデル (LLM) に入力された画像やテキスト命令と並んで視覚的なプロンプトが表示され、特定の予測やタスクに合わせてモデルを適応させます。
続いて、マルチスケールの画像特徴と視覚的プロンプト情報を均一に改良するために、共有視覚エンコード法が導入されました。
さらに、EarthMarker に多粒度の多粒度視覚認識能力を与えるために、クロスドメインの段階的学習戦略が開発され、自然な知識と RS ドメイン固有の知識の両方を活用することで、素のパラメータが軽量な方法で最適化されます。
さらに、RS の視覚的プロンプト データの不足に対処するために、マルチモーダルのきめの細かい視覚的プロンプト指示を特徴とする RSVP という名前のデータセットが構築されています。
提案された EarthMarker の競争力のあるパフォーマンスを実証するために広範な実験が行われ、視覚的プロンプト学習フレームワークの下での多粒度 RS 画像解釈の大幅な進歩を表しています。
要約(オリジナル)
Recent advances in visual prompting in the natural image area have allowed users to interact with artificial intelligence (AI) tools through various visual marks such as box, point, and free-form shapes. However, due to the significant difference between the natural and remote sensing (RS) images, existing visual prompting models face challenges in RS scenarios. Moreover, RS MLLMs mainly focus on interpreting image-level RS data and only support interaction with language instruction, restricting flexibility applications in the real world. To address those limitations, a novel visual prompting model named EarthMarker is proposed, which excels in image-level, region-level, and point-level RS imagery interpretation. Specifically, the visual prompts alongside images and text instruction input into the large language model (LLM), adapt models toward specific predictions and tasks. Subsequently, a sharing visual encoding method is introduced to refine multi-scale image features and visual prompt information uniformly. Furthermore, to endow the EarthMarker with versatile multi-granularity visual perception abilities, the cross-domain phased learning strategy is developed, and the disjoint parameters are optimized in a lightweight manner by leveraging both the natural and RS domain-specific knowledge. In addition, to tackle the lack of RS visual prompting data, a dataset named RSVP featuring multi-modal fine-grained visual prompting instruction is constructed. Extensive experiments are conducted to demonstrate the proposed EarthMarker’s competitive performance, representing a significant advance in multi-granularity RS imagery interpretation under the visual prompting learning framework.
arxiv情報
著者 | Wei Zhang,Miaoxin Cai,Tong Zhang,Yin Zhuang,Xuerui Mao |
発行日 | 2024-07-18 15:35:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google