要約
視覚的類似性検出 (VSD) は、広範な電子商取引アプリケーションにおける重要なタスクです。
特定のオブジェクトの画像が与えられた場合、VSD の目標は、知覚上の視覚的類似性が高いさまざまなオブジェクトの画像を取得することです。
高度に対処された問題ではありますが、VSD に対して提案された方法の評価は、多くの場合、識別検索タスクのプロキシに基づいており、同じオブジェクトの異なる画像を検索するモデルの能力を評価します。
識別タスクに基づいた VSD 手法の評価には限界があり、忠実な評価は専門家の注釈に依存する必要があると考えられます。
この論文では、専門家が注釈を付けた 110,000 を超える画像ペアで構成される、初の大規模ファッション視覚類似性ベンチマーク データセットを紹介します。
この大きな貢献に加えて、このデータセットのキュレーション中に直面した課題からの洞察も共有します。
これらの洞察に基づいて、あらゆるデータセットに適用できる新規で効率的なラベル付け手順を提案します。
私たちの分析では、その制限と帰納的バイアスを調査し、これらの結果に基づいて、それらの制限を軽減するための指標を提案します。
私たちの主な焦点は視覚的な類似性にありますが、私たちが提示する方法論は、さまざまな領域にわたる知覚的な類似性を発見および評価するためのより広範な用途があります。
要約(オリジナル)
Visual similarities discovery (VSD) is an important task with broad e-commerce applications. Given an image of a certain object, the goal of VSD is to retrieve images of different objects with high perceptual visual similarity. Although being a highly addressed problem, the evaluation of proposed methods for VSD is often based on a proxy of an identification-retrieval task, evaluating the ability of a model to retrieve different images of the same object. We posit that evaluating VSD methods based on identification tasks is limited, and faithful evaluation must rely on expert annotations. In this paper, we introduce the first large-scale fashion visual similarity benchmark dataset, consisting of more than 110K expert-annotated image pairs. Besides this major contribution, we share insight from the challenges we faced while curating this dataset. Based on these insights, we propose a novel and efficient labeling procedure that can be applied to any dataset. Our analysis examines its limitations and inductive biases, and based on these findings, we propose metrics to mitigate those limitations. Though our primary focus lies on visual similarity, the methodologies we present have broader applications for discovering and evaluating perceptual similarity across various domains.
arxiv情報
著者 | Oren Barkan,Tal Reiss,Jonathan Weill,Ori Katz,Roy Hirsch,Itzik Malkiel,Noam Koenigstein |
発行日 | 2023-08-28 17:59:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google