LRVS-Fashion: Extending Visual Search with Referring Instructions

要約

この論文では、ファッションの文脈における画像類似性検索の新たな課題を紹介し、複雑な画像に起因するこの領域の固有のあいまいさに対処します。
業界における最近の関心を受けて、ユーザーが希望する類似性をより正確に定義できるタスクである Referred Visual Search (RVS) を紹介します。
私たちは、このタスクのために明示的に設計された、ファッション カタログから抽出された 842,000 の画像を含む 272,000 のファッション製品で構成される、新しい大規模な公開データセット LRVS-Fashion をリリースします。
ただし、業界の従来の視覚検索手法とは異なり、明示的なオブジェクト検出をバイパスし、画像タプルに対して弱教師付き条件付き対比学習を採用することで、優れたパフォーマンスを達成できることを実証します。
私たちの方法は軽量で堅牢性を示しており、2M のディストラクターに対して強力な検出ベースのベースラインよりも優れた 1 つのリコールに達します。
データセットは https://huggingface.co/datasets/Slep/LAION-RVS-Fashion で入手できます。

要約(オリジナル)

This paper introduces a new challenge for image similarity search in the context of fashion, addressing the inherent ambiguity in this domain stemming from complex images. We present Referred Visual Search (RVS), a task allowing users to define more precisely the desired similarity, following recent interest in the industry. We release a new large public dataset, LRVS-Fashion, consisting of 272k fashion products with 842k images extracted from fashion catalogs, designed explicitly for this task. However, unlike traditional visual search methods in the industry, we demonstrate that superior performance can be achieved by bypassing explicit object detection and adopting weakly-supervised conditional contrastive learning on image tuples. Our method is lightweight and demonstrates robustness, reaching Recall at one superior to strong detection-based baselines against 2M distractors. The dataset is available at https://huggingface.co/datasets/Slep/LAION-RVS-Fashion .

arxiv情報

著者 Simon Lepage,Jérémie Mary,David Picard
発行日 2024-05-15 12:17:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: (Primary), cs.CV, I.2.10 パーマリンク