Pretrained Embeddings for E-commerce Machine Learning: When it Fails and Why?

要約

タイトル:Eコマース機械学習における事前学習された埋め込み:失敗する理由

要約:
– Eコマース機械学習において、事前学習された埋め込みの使用は広く普及している。
– しかし、実際にプロダクションシステムで事前学習された埋め込みを使用する際に、現在の知識だけでは完全に説明できない多くの問題に遭遇している。
– 事前学習された埋め込みの内在的な特性や下流タスクとの相互作用を理解するための徹底的な理解が不足しているため、実践的な意思決定を行うことが困難になっている。
– 本調査により、Eコマースアプリケーションで事前学習された埋め込みを使用する際の2つの重要な発見がある。
– 第1に、事前トレーニングと下流モデルの設計、特に埋め込みベクトルを介して情報をエンコードおよびデコードする方法は深い影響を与えることがわかった。
– 第2に、カーネル分析のレンズを通して事前学習された埋め込みの原理的な観点を確立することができ、これにより、その予測可能性を評価することができる。
– これらの発見は実際のプロダクションでの事前学習された埋め込みの成功的な採用に貢献し、理論的根拠、ベンチマーク実験、オンラインテストによって裏付けられた結論となる。

要約(オリジナル)

The use of pretrained embeddings has become widespread in modern e-commerce machine learning (ML) systems. In practice, however, we have encountered several key issues when using pretrained embedding in a real-world production system, many of which cannot be fully explained by current knowledge. Unfortunately, we find that there is a lack of a thorough understanding of how pre-trained embeddings work, especially their intrinsic properties and interactions with downstream tasks. Consequently, it becomes challenging to make interactive and scalable decisions regarding the use of pre-trained embeddings in practice. Our investigation leads to two significant discoveries about using pretrained embeddings in e-commerce applications. Firstly, we find that the design of the pretraining and downstream models, particularly how they encode and decode information via embedding vectors, can have a profound impact. Secondly, we establish a principled perspective of pre-trained embeddings via the lens of kernel analysis, which can be used to evaluate their predictability, interactively and scalably. These findings help to address the practical challenges we faced and offer valuable guidance for successful adoption of pretrained embeddings in real-world production. Our conclusions are backed by solid theoretical reasoning, benchmark experiments, as well as online testings.

arxiv情報

著者 Da Xu,Bo Yang
発行日 2023-04-09 23:55:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG パーマリンク