Learning Instance-Level Representation for Large-Scale Multi-Modal Pretraining in E-commerce

要約

タイトル:Eコマースにおける大規模なマルチモーダル事前学習のためのインスタンスレベル表現の学習
要約:本論文は、Eコマースにおいて大規模な下流アプリケーションの拡張可能な能力を持つ汎用的なマルチモーダル基礎モデルを確立することを目的としています。最近、大規模ビジョン言語プレトレーニングアプローチは一般ドメインにおいて顕著な進展を遂げていますが、自然画像と商品画像の間に著しい違いがあるため、これらのフレームワークを商品レベルの表現をモデリングするために直接適用することは必然的に最適ではありません。そのため、本論文ではインスタンス中心のマルチモーダルプレトレーニングパラダイムであるECLIPを提案しています。詳細には、学習可能なインスタンスクエリを導入し、インスタンスレベルの意味を明示的に集約するためのデコーダアーキテクチャを作成します。さらに、高価な手動注釈に頼らずに所望の商品インスタンスに焦点を合わせるために、2つの特別に構成された事前テキスト課題がさらに提案されます。ECLIPは、1億個のEコマース関連データで学習することで、より一般的で意味豊かで堅牢な表現を抽出することに成功しました。広範な実験結果は、さらなる微調整なしで、ECLIPが幅広い下流タスクで既存の方法を大きく超え、現実のEコマースアプリケーションへの強い転移性を示しています。

要点:
– Eコマースにおいて大規模な下流アプリケーションの拡張可能な能力を持つ汎用的なマルチモーダル基礎モデルを確立することを目的としている。
– 自然画像と商品画像の間に著しい違いがあるため、一般的なフレームワークを商品レベルの表現をモデリングするために直接適用することは最適ではない。
– インスタンス中心のマルチモーダルプレトレーニングパラダイムであるECLIPを提案している。
– 学習可能なインスタンスクエリを導入し、インスタンスレベルの意味を明示的に集約するためのデコーダアーキテクチャを作成する。
– 2つの特別に構成された事前テキスト課題が提案され、高価な手動注釈に頼らずに所望の商品インスタンスに焦点を合わせることができる。
– ECLIPは、1億個のEコマース関連データで学習することで、より一般的で意味豊かで堅牢な表現を抽出することに成功し、幅広い下流タスクで既存の方法を大きく超え、現実のEコマースアプリケーションへの強い転移性を示している。

要約(オリジナル)

This paper aims to establish a generic multi-modal foundation model that has the scalable capability to massive downstream applications in E-commerce. Recently, large-scale vision-language pretraining approaches have achieved remarkable advances in the general domain. However, due to the significant differences between natural and product images, directly applying these frameworks for modeling image-level representations to E-commerce will be inevitably sub-optimal. To this end, we propose an instance-centric multi-modal pretraining paradigm called ECLIP in this work. In detail, we craft a decoder architecture that introduces a set of learnable instance queries to explicitly aggregate instance-level semantics. Moreover, to enable the model to focus on the desired product instance without reliance on expensive manual annotations, two specially configured pretext tasks are further proposed. Pretrained on the 100 million E-commerce-related data, ECLIP successfully extracts more generic, semantic-rich, and robust representations. Extensive experimental results show that, without further fine-tuning, ECLIP surpasses existing methods by a large margin on a broad range of downstream tasks, demonstrating the strong transferability to real-world E-commerce applications.

arxiv情報

著者 Yang Jin,Yongzhi Li,Zehuan Yuan,Yadong Mu
発行日 2023-04-06 04:14:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク