End-to-end multi-modal product matching in fashion e-commerce

要約

製品マッチングは、発見しやすさ、キュレーション、価格設定を向上させるために同じ製品のさまざまな表現を識別するタスクであり、オンライン マーケットプレイスおよび電子商取引企業にとって重要な機能です。
当社は、大規模なデータセット、データ分散の変化、未知の領域が課題となる業界環境において、堅牢なマルチモーダル製品マッチング システムを提案します。
私たちはさまざまなアプローチを比較し、対照学習を通じてトレーニングされた事前トレーニング済みの画像エンコーダーとテキスト エンコーダーの比較的単純な投影により、コストとパフォーマンスのバランスを取りながら最先端の結果が得られると結論付けました。
当社のソリューションは、単一モダリティ マッチング システムや、CLIP などの大規模な事前トレーニング済みモデルよりも優れたパフォーマンスを発揮します。
さらに、人間参加型プロセスをモデルベースの予測と組み合わせて、実稼働システムでほぼ完璧な精度を達成する方法を示します。

要約(オリジナル)

Product matching, the task of identifying different representations of the same product for better discoverability, curation, and pricing, is a key capability for online marketplace and e-commerce companies. We present a robust multi-modal product matching system in an industry setting, where large datasets, data distribution shifts and unseen domains pose challenges. We compare different approaches and conclude that a relatively straightforward projection of pretrained image and text encoders, trained through contrastive learning, yields state-of-the-art results, while balancing cost and performance. Our solution outperforms single modality matching systems and large pretrained models, such as CLIP. Furthermore we show how a human-in-the-loop process can be combined with model-based predictions to achieve near perfect precision in a production system.

arxiv情報

著者 Sándor Tóth,Stephen Wilson,Alexia Tsoukara,Enric Moreu,Anton Masalovich,Lars Roemheld
発行日 2024-03-18 09:12:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク