Retail-786k: a Large-Scale Dataset for Visual Entity Matching

要約

エンティティ マッチング (EM) は、サンプル グループ (= エンティティ) から目に見えないデータに意味概念を転送することによって、オブジェクトをグループ化する方法を学習するタスクを定義します。
多くの EM 問題に関連して画像データが一般的に利用可能になっているにもかかわらず、現在利用可能な EM アルゴリズムのほとんどは (テキストの) メタデータのみに依存しています。
この論文では、小売分野における製品レベルのユースケースに基づいた、「視覚的エンティティのマッチング」のための初の公的に利用可能な大規模データセットを紹介します。
ヨーロッパのさまざまな小売業者から数年かけて収集したスキャンされた広告チラシを使用して、最大 3,000 個のエンティティにグループ化された最大 18,000 個の異なる個々の小売製品を含む、手動で注釈が付けられた合計約 786,000 個の高解像度の製品画像を提供します。
これらの製品エンティティのアノテーションは、各エンティティが同等の製品の同等クラスを形成する価格比較タスクに基づいています。
最初のベースライン評価に続いて、提案された「視覚的エンティティのマッチング」が、標準的な画像ベースの分類および検索アルゴリズムを使用しても十分に解決できない新しい学習問題を構成することを示します。
代わりに、提案された問題に対処するには、サンプルベースの視覚的に等価なクラスを新しいデータに転送できる新しいアプローチが必要です。
このペーパーの目的は、そのようなアルゴリズムのベンチマークを提供することです。
データセット、評価コード、ダウンロード手順に関する情報は、https://www.retail-786k.org/ で提供されます。

要約(オリジナル)

Entity Matching (EM) defines the task of learning to group objects by transferring semantic concepts from example groups (=entities) to unseen data. Despite the general availability of image data in the context of many EM-problems, most currently available EM-algorithms solely rely on (textual) meta data. In this paper, we introduce the first publicly available large-scale dataset for ‘visual entity matching’, based on a production level use case in the retail domain. Using scanned advertisement leaflets, collected over several years from different European retailers, we provide a total of ~786k manually annotated, high resolution product images containing ~18k different individual retail products which are grouped into ~3k entities. The annotation of these product entities is based on a price comparison task, where each entity forms an equivalence class of comparable products. Following on a first baseline evaluation, we show that the proposed ‘visual entity matching’ constitutes a novel learning problem which can not sufficiently be solved using standard image based classification and retrieval algorithms. Instead, novel approaches which allow to transfer example based visual equivalent classes to new data are needed to address the proposed problem. The aim of this paper is to provide a benchmark for such algorithms. Information about the dataset, evaluation code and download instructions are provided under https://www.retail-786k.org/.

arxiv情報

著者 Bianca Lamm,Janis Keuper
発行日 2024-03-11 15:11:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク