TACLR: A Scalable and Efficient Retrieval-based Method for Industrial Product Attribute Value Identification

要約

製品属性値識別 (PAVI) には、製品プロファイルからの属性値の識別が含まれます。これは、電子商取引プラットフォームでの製品検索、推奨、ビジネス分析を改善するための重要なタスクです。
ただし、既存の PAVI メソッドは、暗黙的な値の推論、分布外 (OOD) 値の処理、正規化された出力の生成などの重大な課題に直面しています。
これらの制限に対処するために、PAVI の最初の検索ベースの方法である、Taxonomy-Aware Contrastive Learning Retrieval (TACLR) を導入します。
TACLR は、製品プロファイルと候補値を埋め込みにエンコードし、項目の埋め込みとの類似性に基づいて値を取得することにより、PAVI を情報検索タスクとして定式化します。
分類を意識したハード ネガティブ サンプリングによる対照トレーニングを活用し、動的なしきい値による適応推論を採用します。
TACLR には、次の 3 つの重要な利点があります。(1) 正規化された出力を生成しながら、暗黙的な値と OOD 値を効果的に処理します。
(2) 数千のカテゴリ、数万の属性、数百万の値に拡張できます。
(3) 高負荷の産業シナリオ向けの効率的な推論をサポートします。
独自のデータセットと公開データセットに関する広範な実験により、TACLR の有効性と効率性が検証されています。
さらに、現実世界の電子商取引プラットフォームへの導入に成功し、動的で大規模な属性分類をサポートしながら、毎日何百万もの商品リストを処理しています。

要約(オリジナル)

Product Attribute Value Identification (PAVI) involves identifying attribute values from product profiles, a key task for improving product search, recommendations, and business analytics on e-commerce platforms. However, existing PAVI methods face critical challenges, such as inferring implicit values, handling out-of-distribution (OOD) values, and producing normalized outputs. To address these limitations, we introduce Taxonomy-Aware Contrastive Learning Retrieval (TACLR), the first retrieval-based method for PAVI. TACLR formulates PAVI as an information retrieval task by encoding product profiles and candidate values into embeddings and retrieving values based on their similarity to the item embedding. It leverages contrastive training with taxonomy-aware hard negative sampling and employs adaptive inference with dynamic thresholds. TACLR offers three key advantages: (1) it effectively handles implicit and OOD values while producing normalized outputs; (2) it scales to thousands of categories, tens of thousands of attributes, and millions of values; and (3) it supports efficient inference for high-load industrial scenarios. Extensive experiments on proprietary and public datasets validate the effectiveness and efficiency of TACLR. Moreover, it has been successfully deployed in a real-world e-commerce platform, processing millions of product listings daily while supporting dynamic, large-scale attribute taxonomies.

arxiv情報

著者 Yindu Su,Huike Zou,Lin Sun,Ting Zhang,Haiyang Yang,Liyu Chen,David Lo,Qingheng Zhang,Shuguang Han,Jufeng Chen
発行日 2025-01-07 14:45:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR パーマリンク