GenToC: Leveraging Partially-Labeled Data for Product Attribute-Value Identification

要約

電子商取引ドメインでは、製品リスト (ブランド: Apple など) から属性と値のペアを正確に抽出することが、検索および推奨システムを強化するために重要です。
この抽出プロセスの自動化は、製品カテゴリとそれぞれの属性が非常に多様であるため、困難が伴います。さらに、広範で正確に注釈が付けられたトレーニング データセットが不足していることと、電子商取引プラットフォームのリアルタイム ニーズを満たすための低遅延の要求がさらに複雑になっています。

これらの課題に対処するために、製品タイトルから属性と値のペアを抽出するための新しい 2 段階モデル​​である GenToC を導入します。
GenToC は、部分的にラベル付けされたデータを使用してトレーニングするように設計されており、不完全な属性と値のペアを活用し、完全にアノテーションが付けられたデータセットの必要性を回避します。
さらに、GenToC がトレーニング データセットを段階的に改良および拡張できるようにするブートストラップ手法を導入します。
この機能強化により、他のニューラル ネットワーク モデルのトレーニングに利用できるデータの品質が大幅に向上します。他のニューラル ネットワーク モデルは、通常は高速ですが、部分的にラベル付けされたデータを処理する能力の点で GenToC よりも本質的に能力が劣ります。
GenToC は、トレーニング用に充実したデータセットを提供することで、これらの代替モデルのパフォーマンスを大幅に向上させ、リアルタイム展開により適したものにします。
私たちの結果は、ラベル付きデータの限られたセットから学習し、より効率的なモデルのトレーニングに貢献する GenToC の独自の機能を強調しており、製品タイトルからの属性と値のペアの自動抽出において大きな進歩を示しています。
GenToC はインド最大の B2B 電子商取引プラットフォーム、IndiaMART.com に正常に統合され、この困難なタスクにおいて 89.5% の高精度を維持しながら、既存の導入システムと比較して再現率 21.1% の大幅な増加を達成しました。

要約(オリジナル)

In the e-commerce domain, the accurate extraction of attribute-value pairs from product listings (e.g., Brand: Apple) is crucial for enhancing search and recommendation systems. The automation of this extraction process is challenging due to the vast diversity of product categories and their respective attributes, compounded by the lack of extensive, accurately annotated training datasets and the demand for low latency to meet the real-time needs of e-commerce platforms. To address these challenges, we introduce GenToC, a novel two-stage model for extracting attribute-value pairs from product titles. GenToC is designed to train with partially-labeled data, leveraging incomplete attribute-value pairs and obviating the need for a fully annotated dataset. Moreover, we introduce a bootstrapping method that enables GenToC to progressively refine and expand its training dataset. This enhancement substantially improves the quality of data available for training other neural network models that are typically faster but are inherently less capable than GenToC in terms of their capacity to handle partially-labeled data. By supplying an enriched dataset for training, GenToC significantly advances the performance of these alternative models, making them more suitable for real-time deployment. Our results highlight the unique capability of GenToC to learn from a limited set of labeled data and to contribute to the training of more efficient models, marking a significant leap forward in the automated extraction of attribute-value pairs from product titles. GenToC has been successfully integrated into India’s largest B2B e-commerce platform, IndiaMART.com, achieving a significant increase of 21.1% in recall over the existing deployed system while maintaining a high precision of 89.5% in this challenging task.

arxiv情報

著者 D. Subhalingam,Keshav Kolluru,Mausam,Saurabh Singal
発行日 2024-05-17 17:09:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR, cs.LG パーマリンク