TACLR: A Scalable and Efficient Retrieval-based Method for Industrial Product Attribute Value Identification

要約

商品属性値同定(PAVI)は、商品プロファイルから属性値を同定するもので、eコマースプラットフォームにおける商品検索、推薦、ビジネス分析を改善するための重要なタスクである。しかし、既存のPAVI手法は、暗黙的な値の推論、分布外(OOD)値の処理、正規化された出力の生成などの重大な課題に直面している。これらの限界に対処するために、我々はPAVIのための最初の検索ベースの手法である、分類学に対応した対照学習検索(TACLR)を導入する。TACLRは、商品プロファイルと候補値をエンベッディングにエンコードし、それらの類似性に基づいて値を検索することにより、PAVIを情報検索タスクとして定式化する。TACLRは、タクソノミーを意識したハードネガティ ブサンプリングによる対照学習を活用し、動的閾値による適応 的推論を採用する。(2)数千のカテゴリ、数万の属性、数百万の値に拡張可能である。(3)高負荷の産業展開において効率的な推論をサポートする。TACLRの有効性と効率性は、独自のデータセットと公開データセットを用いた広範な実験によって検証されている。さらに、TACLRは実世界の電子商取引プラットフォームXianyuに導入され、頻繁に更新される大規模な属性タクソノミを持つ数百万の商品リストを毎日処理することに成功している。我々は、https://github.com/SuYindu/TACLR、再現性と将来の研究を促進するためにコードを公開する。

要約(オリジナル)

Product Attribute Value Identification (PAVI) involves identifying attribute values from product profiles, a key task for improving product search, recommendation, and business analytics on e-commerce platforms. However, existing PAVI methods face critical challenges, such as inferring implicit values, handling out-of-distribution (OOD) values, and producing normalized outputs. To address these limitations, we introduce Taxonomy-Aware Contrastive Learning Retrieval (TACLR), the first retrieval-based method for PAVI. TACLR formulates PAVI as an information retrieval task by encoding product profiles and candidate values into embeddings and retrieving values based on their similarity. It leverages contrastive training with taxonomy-aware hard negative sampling and employs adaptive inference with dynamic thresholds. TACLR offers three key advantages: (1) it effectively handles implicit and OOD values while producing normalized outputs; (2) it scales to thousands of categories, tens of thousands of attributes, and millions of values; and (3) it supports efficient inference for high-load industrial deployment. Extensive experiments on proprietary and public datasets validate the effectiveness and efficiency of TACLR. Further, it has been successfully deployed on the real-world e-commerce platform Xianyu, processing millions of product listings daily with frequently updated, large-scale attribute taxonomies. We release the code to facilitate reproducibility and future research at https://github.com/SuYindu/TACLR.

arxiv情報

著者 Yindu Su,Huike Zou,Lin Sun,Ting Zhang,Haiyang Yang,Liyu Chen,David Lo,Qingheng Zhang,Shuguang Han,Jufeng Chen
発行日 2025-06-03 09:02:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.IR パーマリンク