要約
リモート センシング データベースから画像を効果的かつ効率的に取得することは、リモート センシング ビッグ データの領域における重要な課題です。
手書きのスケッチを検索入力として利用すると、直観的でユーザーフレンドリーな利点が得られますが、スケッチからのマルチレベルのフィーチャ統合の可能性はまだ十分に検討されていないため、検索パフォーマンスが最適化されていません。
このギャップに対処するために、私たちの研究では、マルチレベルの特徴抽出、セルフアテンションガイドによるトークン化とフィルタリング、およびクロスモダリティアテンションアップデートを活用した、リモートセンシング画像用の新しいゼロショット、スケッチベースの検索方法を導入しています。
このアプローチでは視覚情報のみが使用され、スケッチや画像に関する意味論的な知識は必要ありません。
まず、マルチレベルのセルフ アテンション ガイド付き特徴抽出を採用してクエリ スケッチをトークン化し、セルフ アテンション特徴抽出を使用して候補画像をトークン化します。
次に、クロスアテンション メカニズムを採用して、これら 2 つのモダリティ間のトークンの対応関係を確立し、スケッチと画像の類似性の計算を容易にします。
複数のデータセットに対するテストで証明されているように、私たちの方法は既存のスケッチベースのリモートセンシング画像検索技術を大幅に上回っています。
特に、目に見えないカテゴリや新しいリモート センシング データの処理において、堅牢なゼロショット学習機能と強力な汎用性も示します。
この方法のスケーラビリティは、データベース内のすべての候補画像に対する検索トークンを事前に計算することによってさらに強化できます。
この研究は、クロスモーダル リモート センシング画像検索におけるマルチレベルの注意誘導型トークン化の重要な可能性を強調しています。
より広範なアクセシビリティと研究の円滑化のために、この研究で使用されたコードとデータセットをオンラインで公開しました。
コードとデータセットは https://github.com/Snowstormfly/Cross-modal-retrieval-MLAGT で入手できます。
要約(オリジナル)
Effectively and efficiently retrieving images from remote sensing databases is a critical challenge in the realm of remote sensing big data. Utilizing hand-drawn sketches as retrieval inputs offers intuitive and user-friendly advantages, yet the potential of multi-level feature integration from sketches remains underexplored, leading to suboptimal retrieval performance. To address this gap, our study introduces a novel zero-shot, sketch-based retrieval method for remote sensing images, leveraging multi-level feature extraction, self-attention-guided tokenization and filtering, and cross-modality attention update. This approach employs only vision information and does not require semantic knowledge concerning the sketch and image. It starts by employing multi-level self-attention guided feature extraction to tokenize the query sketches, as well as self-attention feature extraction to tokenize the candidate images. It then employs cross-attention mechanisms to establish token correspondence between these two modalities, facilitating the computation of sketch-to-image similarity. Our method significantly outperforms existing sketch-based remote sensing image retrieval techniques, as evidenced by tests on multiple datasets. Notably, it also exhibits robust zero-shot learning capabilities and strong generalizability in handling unseen categories and novel remote sensing data. The method’s scalability can be further enhanced by the pre-calculation of retrieval tokens for all candidate images in a database. This research underscores the significant potential of multi-level, attention-guided tokenization in cross-modal remote sensing image retrieval. For broader accessibility and research facilitation, we have made the code and dataset used in this study publicly available online. Code and dataset are available at https://github.com/Snowstormfly/Cross-modal-retrieval-MLAGT.
arxiv情報
著者 | Bo Yang,Chen Wang,Xiaoshuang Ma,Beiping Song,Zhuang Liu |
発行日 | 2024-03-05 12:15:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google