UrbanCross: Enhancing Satellite Image-Text Retrieval with Cross-Domain Adaptation

要約

都市化の課題は、都市アプリケーション向けの地理的セマンティクスが強化された特定の情報に迅速にアクセスするための効果的な衛星画像テキスト検索方法の必要性を強調しています。
しかし、既存の手法では、主に単一ドメイン内の検索パフォーマンスの向上に焦点を当てており、多様な都市景観にわたる重大なドメインのギャップが見落とされることがよくあります。
この問題に取り組むために、クロスドメイン衛星画像テキスト検索の新しいフレームワークである UrbanCross を紹介します。
UrbanCross は、3 か国の広範な地理タグで強化された高品質のクロスドメイン データセットを活用して、ドメインの多様性を強調します。
テキストの改良にはラージ マルチモーダル モデル (LMM) を、視覚的な拡張にはセグメント エニシング モデル (SAM) を採用し、画像、セグメント、テキストのきめ細かい位置合わせを実現し、検索パフォーマンスが 10% 向上しました。
さらに、UrbanCross には、適応型カリキュラムベースのソース サンプラーと重み付けされた敵対的クロスドメイン微調整モジュールが組み込まれており、さまざまなドメインにわたる適応性が段階的に強化されています。
広範な実験により、UrbanCross の検索と新しい都市環境への適応における優れた効率が確認され、ドメイン適応メカニズムのないバージョンと比較して平均パフォーマンスが 15% 向上し、ドメイン ギャップを効果的に埋めることが実証されました。

要約(オリジナル)

Urbanization challenges underscore the necessity for effective satellite image-text retrieval methods to swiftly access specific information enriched with geographic semantics for urban applications. However, existing methods often overlook significant domain gaps across diverse urban landscapes, primarily focusing on enhancing retrieval performance within single domains. To tackle this issue, we present UrbanCross, a new framework for cross-domain satellite image-text retrieval. UrbanCross leverages a high-quality, cross-domain dataset enriched with extensive geo-tags from three countries to highlight domain diversity. It employs the Large Multimodal Model (LMM) for textual refinement and the Segment Anything Model (SAM) for visual augmentation, achieving a fine-grained alignment of images, segments and texts, yielding a 10% improvement in retrieval performance. Additionally, UrbanCross incorporates an adaptive curriculum-based source sampler and a weighted adversarial cross-domain fine-tuning module, progressively enhancing adaptability across various domains. Extensive experiments confirm UrbanCross’s superior efficiency in retrieval and adaptation to new urban environments, demonstrating an average performance increase of 15% over its version without domain adaptation mechanisms, effectively bridging the domain gap.

arxiv情報

著者 Siru Zhong,Xixuan Hao,Yibo Yan,Ying Zhang,Yangqiu Song,Yuxuan Liang
発行日 2024-04-22 14:53:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク