Direction-Oriented Visual-semantic Embedding Model for Remote Sensing Image-text Retrieval

要約

画像とテキストの検索は近年急速に発展しました。
しかし、視覚と意味の不均衡により、非意味的な視覚的特徴とテキスト的特徴の不正確な一致につながるため、リモート センシングでは依然として課題が残っています。
この問題を解決するために、視覚と言語の関係を解明するための新しい方向指向視覚意味埋め込みモデル (DOVE) を提案します。
私たちのハイライトは、潜在空間で視覚的およびテキスト表現を実行し、冗長性のない地域的な視覚表現にできるだけ近づけることです。
具体的には、地域指向注意モジュール (ROAM) は、地域の視覚的特徴に応じて、潜在意味論的空間における最終的な視覚的埋め込みとテキスト埋め込みとの間の距離を適応的に調整します。
一方、軽量の Digging Text Genome Assistant (DTGA) は、扱いやすいテキスト表現の範囲を拡大し、より少ない注意操作を使用してグローバルな単語レベルの意味論的なつながりを強化するように設計されています。
最終的に、グローバルな視覚的意味論的制約を活用して、単一の視覚的依存性を軽減し、最終的な視覚的およびテキスト表現の外部制約として機能します。
私たちの方法の有効性と優位性は、RSICD と RSITMD という 2 つのベンチマーク データセットでのパラメーター評価、定量的比較、アブレーション研究、視覚分析を含む広範な実験によって検証されています。

要約(オリジナル)

Image-text retrieval has developed rapidly in recent years. However, it is still a challenge in remote sensing due to visual-semantic imbalance, which leads to incorrect matching of non-semantic visual and textual features. To solve this problem, we propose a novel Direction-Oriented Visual-semantic Embedding Model (DOVE) to mine the relationship between vision and language. Our highlight is to conduct visual and textual representations in latent space, directing them as close as possible to a redundancy-free regional visual representation. Concretely, a Regional-Oriented Attention Module (ROAM) adaptively adjusts the distance between the final visual and textual embeddings in the latent semantic space, oriented by regional visual features. Meanwhile, a lightweight Digging Text Genome Assistant (DTGA) is designed to expand the range of tractable textual representation and enhance global word-level semantic connections using less attention operations. Ultimately, we exploit a global visual-semantic constraint to reduce single visual dependency and serve as an external constraint for the final visual and textual representations. The effectiveness and superiority of our method are verified by extensive experiments including parameter evaluation, quantitative comparison, ablation studies and visual analysis, on two benchmark datasets, RSICD and RSITMD.

arxiv情報

著者 Qing Ma,Jiancheng Pan,Cong Bai
発行日 2024-01-23 09:42:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク