PIR: Remote Sensing Image-Text Retrieval with Prior Instruction Representation Learning

要約

リモート センシングによる画像とテキストの検索は、リモート センシングによる解釈タスクの基本的な側面を構成し、視覚と言語表現の調整を容易にします。
この論文では、事前の知識に基づいて視覚表現とテキスト表現の適応学習を指示する事前命令表現 (PIR) 学習パラダイムを紹介します。
PIR に基づいて、ドメインに適応したリモート センシング画像テキスト検索フレームワーク PIR-ITR は、視覚言語理解タスクにおける意味論的なノイズの問題に対処するように設計されています。
ただし、視覚言語基礎モデルを事前トレーニングするための大量の追加データにより、リモート センシングによる画像テキスト検索はオープンドメイン検索タスクにさらに発展します。
上記を続けて、リモートセンシングの視覚言語表現における意味論的ノイズに対処し、オープンドメインの検索パフォーマンスをさらに向上させるために、リモートセンシング画像テキスト検索のためのドメイン固有のCLIPベースのフレームワークであるPIR-CLIPを提案します。
ビジョン表現では、Spatial-PAE に基づくビジョン命令表現 (VIR) は、セマンティック ノイズの影響を軽減するための主要な特徴を選択するための信念行列を構築することにより、リモート センシング シーン認識の事前にガイドされた知識を利用します。
テキスト表現では、Temporal-PAE に基づく言語サイクル アテンション (LCA) が、前のタイム ステップを使用して現在のタイム ステップを周期的にアクティブ化し、テキスト表現機能を強化します。
クラス間を制約し、共通部分空間内の意味上の混乱ゾーンを減らすために、クラスターごとのアフィリエーション ロス (AL) が提案されています。
包括的な実験により、PIR が視覚とテキストの表現を強化し、2 つのベンチマーク データセット、RSICD と RSITMD でのクローズド ドメインおよびオープン ドメイン検索の最先端の方法を上回るパフォーマンスを発揮できることが実証されました。

要約(オリジナル)

Remote sensing image-text retrieval constitutes a foundational aspect of remote sensing interpretation tasks, facilitating the alignment of vision and language representations. This paper introduces a prior instruction representation (PIR) learning paradigm that draws on prior knowledge to instruct adaptive learning of vision and text representations. Based on PIR, a domain-adapted remote sensing image-text retrieval framework PIR-ITR is designed to address semantic noise issues in vision-language understanding tasks. However, with massive additional data for pre-training the vision-language foundation model, remote sensing image-text retrieval is further developed into an open-domain retrieval task. Continuing with the above, we propose PIR-CLIP, a domain-specific CLIP-based framework for remote sensing image-text retrieval, to address semantic noise in remote sensing vision-language representations and further improve open-domain retrieval performance. In vision representation, Vision Instruction Representation (VIR) based on Spatial-PAE utilizes the prior-guided knowledge of the remote sensing scene recognition by building a belief matrix to select key features for reducing the impact of semantic noise. In text representation, Language Cycle Attention (LCA) based on Temporal-PAE uses the previous time step to cyclically activate the current time step to enhance text representation capability. A cluster-wise Affiliation Loss (AL) is proposed to constrain the inter-classes and to reduce the semantic confusion zones in the common subspace. Comprehensive experiments demonstrate that PIR could enhance vision and text representations and outperform the state-of-the-art methods of closed-domain and open-domain retrieval on two benchmark datasets, RSICD and RSITMD.

arxiv情報

著者 Jiancheng Pan,Muyuan Ma,Qing Ma,Cong Bai,Shengyong Chen
発行日 2024-05-16 14:53:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク