要約
製品属性値識別(PAVI)には、eコマースプラットフォームでの製品検索、推奨、およびビジネス分析を改善するための重要なタスクである製品プロファイルからの属性値の識別が含まれます。
ただし、既存のPAVIメソッドは、暗黙の値の推測、分散除外(OOD)値の処理、正規化された出力の生成など、重要な課題に直面しています。
これらの制限に対処するために、PAVIの最初の検索ベースの方法である分類学を意識した対照学習検索(TACLR)を導入します。
TACLRは、製品プロファイルと候補値を埋め込みにエンコードし、その類似性に基づいて値を取得することにより、PAVIを情報検索タスクとして定式化します。
それは、分類学を意識したハードネガティブサンプリングと対照的なトレーニングを活用し、動的なしきい値で適応推論を採用しています。
TACLRは3つの重要な利点を提供します。(1)正規化された出力を生成しながら、暗黙的値とOOD値を効果的に処理します。
(2)数千のカテゴリ、数万の属性、および数百万の価値をスケーリングします。
(3)高負荷の産業展開に対する効率的な推論をサポートしています。
独自およびパブリックデータセットに関する広範な実験は、TACLRの有効性と効率を検証します。
さらに、現実世界の電子商取引プラットフォームXianyuに正常に展開されており、毎日何百万もの製品リストを処理し、頻繁に更新される大規模な属性分類法を処理しています。
https://github.com/suyindu/taclrで再現性と将来の研究を促進するためにコードをリリースします。
要約(オリジナル)
Product Attribute Value Identification (PAVI) involves identifying attribute values from product profiles, a key task for improving product search, recommendation, and business analytics on e-commerce platforms. However, existing PAVI methods face critical challenges, such as inferring implicit values, handling out-of-distribution (OOD) values, and producing normalized outputs. To address these limitations, we introduce Taxonomy-Aware Contrastive Learning Retrieval (TACLR), the first retrieval-based method for PAVI. TACLR formulates PAVI as an information retrieval task by encoding product profiles and candidate values into embeddings and retrieving values based on their similarity. It leverages contrastive training with taxonomy-aware hard negative sampling and employs adaptive inference with dynamic thresholds. TACLR offers three key advantages: (1) it effectively handles implicit and OOD values while producing normalized outputs; (2) it scales to thousands of categories, tens of thousands of attributes, and millions of values; and (3) it supports efficient inference for high-load industrial deployment. Extensive experiments on proprietary and public datasets validate the effectiveness and efficiency of TACLR. Further, it has been successfully deployed on the real-world e-commerce platform Xianyu, processing millions of product listings daily with frequently updated, large-scale attribute taxonomies. We release the code to facilitate reproducibility and future research at https://github.com/SuYindu/TACLR.
arxiv情報
著者 | Yindu Su,Huike Zou,Lin Sun,Ting Zhang,Haiyang Yang,Liyu Chen,David Lo,Qingheng Zhang,Shuguang Han,Jufeng Chen |
発行日 | 2025-06-02 07:43:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google