要約
タイトル:ゼロショットスケッチベースの画像検索の改善のための適合と整列
要約:
– ゼロショットスケッチベースの画像検索は、スケッチと写真の異なるドメイン、既知と未知の画像分布の意味的ギャップにより困難である。
– 既存の方法は、さまざまな側面情報と学習戦略により事前学習済みモデルを微調整し、スケッチと写真のドメインを共有し、既知と未知のクラスを結びつけるコンパクトな特徴空間を学習する。
– しかし、これらの努力はドメインの適応と既知クラスから未知クラスへの知識移転において不適切である。
– 本論文では、適応と整列のアプローチを提案し、これらの主要な課題に対処する。
– 具体的には、シンプルで軽量なドメインアダプターを挿入して、スケッチドメインの新しい抽象概念を学習し、クロスドメイン表現能力を向上させる。
– また、ゼロショットシナリオで画像テキストファウンデーションモデル(CLIPなど)の最近の進歩に影響を受け、学習した画像埋め込みをより意味的なテキスト埋め込みに明示的に整列させ、既知クラスから未知クラスへの所望の知識移転を実現する。
– 三つのベンチマークデータセットと二つの人気のあるバックボーン上での広範な実験により、我々の方法が検索精度と柔軟性において優れていることが示された。
要約(オリジナル)
Zero-shot sketch-based image retrieval (ZS-SBIR) is challenging due to the cross-domain nature of sketches and photos, as well as the semantic gap between seen and unseen image distributions. Previous methods fine-tune pre-trained models with various side information and learning strategies to learn a compact feature space that (\romannumeral1) is shared between the sketch and photo domains and (\romannumeral2) bridges seen and unseen classes. However, these efforts are inadequate in adapting domains and transferring knowledge from seen to unseen classes. In this paper, we present an effective \emph{“Adapt and Align”} approach to address the key challenges. Specifically, we insert simple and lightweight domain adapters to learn new abstract concepts of the sketch domain and improve cross-domain representation capabilities. Inspired by recent advances in image-text foundation models (\textit{e.g.}, CLIP) on zero-shot scenarios, we explicitly align the learned image embedding with a more semantic text embedding to achieve the desired knowledge transfer from seen to unseen classes. Extensive experiments on three benchmark datasets and two popular backbones demonstrate the superiority of our method in terms of retrieval accuracy and flexibility.
arxiv情報
著者 | Shiyin Dong,Mingrui Zhu,Nannan Wang,Heng Yang,Xinbo Gao |
発行日 | 2023-05-09 03:10:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI