要約
製品マッピングの目的は、2 つの異なる e ショップからの 2 つのリストが同じ製品を説明しているかどうかを判断することです。
ただし、製品の一致するペアと不一致のペアの既存のデータセットには、製品情報が不完全であるか、非常に遠い不一致の製品しか含まれていないことがよくあります。
したがって、これらのデータセットでトレーニングされた予測モデルは良好な結果をもたらしますが、実際には、非常に似ているが一致しない製品のペアを区別できないため、使用できません。
このペーパーでは、製品マッピング用の 2 つの新しいデータセットを紹介します。ProMapCz は 1,495 個のチェコ製品ペアで構成され、ProMapEn は 2 組の e-ショップから手動で収集した、一致する製品と一致しない製品の 1,555 個の英国製品ペアで構成されます。
データセットには、製品の画像と仕様を含むテキストによる説明の両方が含まれており、製品マッピング用の最も完全なデータセットの 1 つとなっています。
さらに、不一致製品は 2 段階で選択され、ほぼ不一致と中程度の不一致という 2 種類の不一致が作成されました。
中程度の不一致であっても、他のデータセットの不一致よりもはるかに類似した製品のペアです。たとえば、同じブランド、類似した名前、価格を持つ必要があります。
単純なデータの前処理の後、これらのデータセットと他の 2 つのデータセットでいくつかの機械学習アルゴリズムがトレーニングされ、ProMap データセットの複雑さと完全性が実証されました。
ProMap データセットは、既存のデータセットのギャップを埋める製品マッピングのさらなる研究のための黄金標準として提示されています。
要約(オリジナル)
The goal of product mapping is to decide, whether two listings from two different e-shops describe the same products. Existing datasets of matching and non-matching pairs of products, however, often suffer from incomplete product information or contain only very distant non-matching products. Therefore, while predictive models trained on these datasets achieve good results on them, in practice, they are unusable as they cannot distinguish very similar but non-matching pairs of products. This paper introduces two new datasets for product mapping: ProMapCz consisting of 1,495 Czech product pairs and ProMapEn consisting of 1,555 English product pairs of matching and non-matching products manually scraped from two pairs of e-shops. The datasets contain both images and textual descriptions of the products, including their specifications, making them one of the most complete datasets for product mapping. Additionally, the non-matching products were selected in two phases, creating two types of non-matches — close non-matches and medium non-matches. Even the medium non-matches are pairs of products that are much more similar than non-matches in other datasets — for example, they still need to have the same brand and similar name and price. After simple data preprocessing, several machine learning algorithms were trained on these and two the other datasets to demonstrate the complexity and completeness of ProMap datasets. ProMap datasets are presented as a golden standard for further research of product mapping filling the gaps in existing ones.
arxiv情報
著者 | Kateřina Macková,Martin Pilát |
発行日 | 2023-09-13 11:16:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google