Cross-Domain Product Representation Learning for Rich-Content E-Commerce

要約

ショートビデオとライブストリーミングプラットフォームの急増により、消費者のオンラインショッピングのやり方に革命が起きました。
消費者は現在、製品ページを閲覧する代わりに、ショートビデオやライブストリームなどの動的でインタラクティブなメディアを通じて製品を購入できるリッチコンテンツの電子商取引に目を向けています。
この新たなオンライン ショッピング形式では、製品がさまざまなメディア ドメインで異なる方法で提示される可能性があるため、技術的な課題が生じています。
したがって、最適なユーザー検索エクスペリエンスと効果的な製品推奨を保証するために、クロスドメインの製品認識を実現するには、統一された製品表現が不可欠です。
統一されたクロスドメイン製品表現が業界で緊急に必要とされているにもかかわらず、これまでの研究では主に製品ページのみに焦点が当てられており、短いビデオやライブ ストリームは考慮されていませんでした。
リッチ コンテンツの電子商取引分野のギャップを埋めるために、このホワイト ペーパーでは、ROPE と呼ばれる大規模な cRoss-dOmain Product Ecognition データセットを紹介します。
ROPE は幅広い製品カテゴリをカバーしており、何百万もの短いビデオやライブ ストリームに対応する 180,000 を超える製品が含まれています。
これは、製品ページ、短いビデオ、ライブ ストリームを同時にカバーする初めてのデータセットであり、さまざまなメディア ドメインにわたって統一された製品表現を確立するための基盤を提供します。
さらに、我々は、テキストとビジョンを含むマルチモーダル学習を通じて、異なるドメインの製品表現を統合するクロスドメイン製品表現フレームワーク、すなわち COPE を提案します。
下流タスクに関する広範な実験により、すべての製品ドメインの共同特徴空間を学習する際の COPE の有効性が実証されています。

要約(オリジナル)

The proliferation of short video and live-streaming platforms has revolutionized how consumers engage in online shopping. Instead of browsing product pages, consumers are now turning to rich-content e-commerce, where they can purchase products through dynamic and interactive media like short videos and live streams. This emerging form of online shopping has introduced technical challenges, as products may be presented differently across various media domains. Therefore, a unified product representation is essential for achieving cross-domain product recognition to ensure an optimal user search experience and effective product recommendations. Despite the urgent industrial need for a unified cross-domain product representation, previous studies have predominantly focused only on product pages without taking into account short videos and live streams. To fill the gap in the rich-content e-commerce area, in this paper, we introduce a large-scale cRoss-dOmain Product Ecognition dataset, called ROPE. ROPE covers a wide range of product categories and contains over 180,000 products, corresponding to millions of short videos and live streams. It is the first dataset to cover product pages, short videos, and live streams simultaneously, providing the basis for establishing a unified product representation across different media domains. Furthermore, we propose a Cross-dOmain Product rEpresentation framework, namely COPE, which unifies product representations in different domains through multimodal learning including text and vision. Extensive experiments on downstream tasks demonstrate the effectiveness of COPE in learning a joint feature space for all product domains.

arxiv情報

著者 Xuehan Bai,Yan Li,Yanhua Cheng,Wenjie Yang,Quan Chen,Han Li
発行日 2023-08-10 13:06:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク