Adapt and Align to Improve Zero-Shot Sketch-Based Image Retrieval

要約

ゼロショット スケッチベースの画像検索 (ZS-SBIR) は、スケッチと写真のクロスドメインの性質や、目に見える画像分布と目に見えない画像分布の間の意味論的なギャップにより、困難を伴います。
これまでの方法では、さまざまなサイド情報と学習戦略を使用して事前トレーニングされたモデルを微調整して、スケッチと写真のドメイン間で共有されるコンパクトな特徴空間を学習し、可視クラスと未可視クラスの橋渡しを行いました。
しかし、これらの努力は、ドメインを適応させ、目に見えるクラスから目に見えないクラスに知識を伝達するには不十分です。
本稿では、主要な課題に対処するための効果的な「適応と調整」アプローチを紹介します。
具体的には、シンプルで軽量のドメイン アダプターを挿入して、スケッチ ドメインの新しい抽象概念を学習し、クロスドメイン表現機能を向上させます。
ゼロショット シナリオにおける画像テキスト基礎モデル (CLIP など) の最近の進歩に触発され、学習した画像埋め込みをより意味論的なテキスト埋め込みと明示的に調整して、目に見えるクラスから目に見えないクラスへの望ましい知識の伝達を実現します。
3 つのベンチマーク データセットと 2 つの一般的なバックボーンに関する広範な実験により、検索の精度と柔軟性の点で私たちの方法の優位性が実証されました。

要約(オリジナル)

Zero-shot sketch-based image retrieval (ZS-SBIR) is challenging due to the cross-domain nature of sketches and photos, as well as the semantic gap between seen and unseen image distributions. Previous methods fine-tune pre-trained models with various side information and learning strategies to learn a compact feature space that is shared between the sketch and photo domains and bridges seen and unseen classes. However, these efforts are inadequate in adapting domains and transferring knowledge from seen to unseen classes. In this paper, we present an effective “Adapt and Align” approach to address the key challenges. Specifically, we insert simple and lightweight domain adapters to learn new abstract concepts of the sketch domain and improve cross-domain representation capabilities. Inspired by recent advances in image-text foundation models (e.g., CLIP) on zero-shot scenarios, we explicitly align the learned image embedding with a more semantic text embedding to achieve the desired knowledge transfer from seen to unseen classes. Extensive experiments on three benchmark datasets and two popular backbones demonstrate the superiority of our method in terms of retrieval accuracy and flexibility.

arxiv情報

著者 Shiyin Dong,Mingrui Zhu,Nannan Wang,Xinbo Gao
発行日 2023-08-09 14:12:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク