ProMap: Datasets for Product Mapping in E-commerce


製品マッピングの目的は、2 つの異なる e ショップからの 2 つのリストが同じ製品を説明しているかどうかを判断することです。
このペーパーでは、製品マッピング用の 2 つの新しいデータセットを紹介します。ProMapCz は 1,495 個のチェコ製品ペアで構成され、ProMapEn は 2 組の e-ショップから手動で収集した、一致する製品と一致しない製品の 1,555 個の英国製品ペアで構成されます。
データセットには、製品の画像と仕様を含むテキストによる説明の両方が含まれており、製品マッピング用の最も完全なデータセットの 1 つとなっています。
さらに、不一致製品は 2 段階で選択され、ほぼ不一致と中程度の不一致という 2 種類の不一致が作成されました。
単純なデータの前処理の後、これらのデータセットと他の 2 つのデータセットでいくつかの機械学習アルゴリズムがトレーニングされ、ProMap データセットの複雑さと完全性が実証されました。
ProMap データセットは、既存のデータセットのギャップを埋める製品マッピングのさらなる研究のための黄金標準として提示されています。


The goal of product mapping is to decide, whether two listings from two different e-shops describe the same products. Existing datasets of matching and non-matching pairs of products, however, often suffer from incomplete product information or contain only very distant non-matching products. Therefore, while predictive models trained on these datasets achieve good results on them, in practice, they are unusable as they cannot distinguish very similar but non-matching pairs of products. This paper introduces two new datasets for product mapping: ProMapCz consisting of 1,495 Czech product pairs and ProMapEn consisting of 1,555 English product pairs of matching and non-matching products manually scraped from two pairs of e-shops. The datasets contain both images and textual descriptions of the products, including their specifications, making them one of the most complete datasets for product mapping. Additionally, the non-matching products were selected in two phases, creating two types of non-matches — close non-matches and medium non-matches. Even the medium non-matches are pairs of products that are much more similar than non-matches in other datasets — for example, they still need to have the same brand and similar name and price. After simple data preprocessing, several machine learning algorithms were trained on these and two the other datasets to demonstrate the complexity and completeness of ProMap datasets. ProMap datasets are presented as a golden standard for further research of product mapping filling the gaps in existing ones.


著者 Kateřina Macková,Martin Pilát
発行日 2023-09-13 11:16:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV, cs.IR, cs.LG パーマリンク