e-CLIP: Large-Scale Vision-Language Representation Learning in E-commerce

要約

製品コンテンツのビジョンと言語表現を理解することは、e コマースの検索および推奨アプリケーションにとって不可欠です。
オンライン ショッピング プラットフォームのバックボーンとして、表現学習研究の最近の成功に触発されて、ラベルのない未加工の製品テキストと画像を使用して言語モデルと視覚モデルを調整する対照的な学習フレームワークを提案します。
大規模な表現学習モデルをトレーニングするために使用した手法を紹介し、ドメイン固有の課題に対処するソリューションを共有します。
カテゴリ分類、属性抽出、製品マッチング、製品クラスタリング、成人向け製品認識など、さまざまなダウンストリーム タスクのバックボーンとして、事前トレーニング済みのモデルを使用してパフォーマンスを調査します。
実験結果は、単一モダリティと複数モダリティの両方に関して、提案された方法が各下流タスクのベースラインよりも優れていることを示しています。

要約(オリジナル)

Understanding vision and language representations of product content is vital for search and recommendation applications in e-commerce. As a backbone for online shopping platforms and inspired by the recent success in representation learning research, we propose a contrastive learning framework that aligns language and visual models using unlabeled raw product text and images. We present techniques we used to train large-scale representation learning models and share solutions that address domain-specific challenges. We study the performance using our pre-trained model as backbones for diverse downstream tasks, including category classification, attribute extraction, product matching, product clustering, and adult product recognition. Experimental results show that our proposed method outperforms the baseline in each downstream task regarding both single modality and multiple modalities.

arxiv情報

著者 Wonyoung Shin,Jonghun Park,Taekang Woo,Yongwoo Cho,Kwangjin Oh,Hwanjun Song
発行日 2022-08-22 14:25:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク