Weakly-Supervised Conditional Embedding for Referred Visual Search

要約

本論文では、ファッションの文脈における画像の類似性検索への新しいアプローチを紹介する。本論文では、Referred Visual Search (RVS)という概念を導入し、ユーザーが追加情報を提供することで、希望する類似度を定義する。我々は、このタスクのために特別に設計された、LAIONから抽出された842Kの画像と272Kのファッション製品からなる新しいデータセット、LAION-RVS-Fashionを提示する。そして、弱教師付き学習を用いた条件付き埋込みの革新的な学習方法を提案し、明示的な注意とフィルタリングに基づく従来のアプローチと比較して、2Mの散乱体を持つギャラリーに対してR@1(Recall at one)の6%の向上を達成する。また、提案手法は、ベースライン手法の2.5倍の数のディストラクターを処理しても、同様のR@1を維持し、頑健性を実証している。本論文は、アクセス可能なデータとアプローチの両方において、Referred Visual Searchという新しい分野の一歩を踏み出すものだと考えています。コード、データ、モデルは、https://www.github.com/Simon-Lepage/CondViT-LRVSF で入手可能です。

要約(オリジナル)

This paper presents a new approach to image similarity search in the context of fashion, a domain with inherent ambiguity due to the multiple ways in which images can be considered similar. We introduce the concept of Referred Visual Search (RVS), where users provide additional information to define the desired similarity. We present a new dataset, LAION-RVS-Fashion, consisting of 272K fashion products with 842K images extracted from LAION, designed explicitly for this task. We then propose an innovative method for learning conditional embeddings using weakly-supervised training, achieving a 6% increase in Recall at one (R@1) against a gallery with 2M distractors, compared to classical approaches based on explicit attention and filtering. The proposed method demonstrates robustness, maintaining similar R@1 when dealing with 2.5 times as many distractors as the baseline methods. We believe this is a step forward in the emerging field of Referred Visual Search both in terms of accessible data and approach. Code, data and models are available at https://www.github.com/Simon-Lepage/CondViT-LRVSF .

arxiv情報

著者 Simon Lepage,Jérémie Mary,David Picard
発行日 2023-06-05 14:45:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: 68T07, cs.CV, I.2.10 パーマリンク