A Framework for Leveraging Partially-Labeled Data for Product Attribute-Value Identification

要約

電子商取引ドメインでは、製品タイトルとユーザーの検索クエリから属性と値のペア (例: ブランド: Apple) を正確に抽出することが、検索および推奨システムを強化するために重要です。
このタスク用のニューラル モデルの主な課題は、利用可能なデータセット内の属性と値のペアのアノテーションが不完全であることが多いため、高品質のトレーニング データが不足していることです。
これに対処するために、部分的にラベル付けされたデータを直接トレーニングするように設計されたモデルである GenToC を導入し、完全にアノテーションが付けられたデータセットの必要性を排除します。
GenToC は、マーカー拡張生成モデルを使用して潜在的な属性を特定し、その後、各属性に関連する値を決定するトークン分類モデルを使用します。
GenToC は既存の最先端モデルを上回るパフォーマンスを示し、正確な抽出数が最大 56.3% 増加しました。
さらに、GenToC を利用してトレーニング データセットを再生成し、属性値のアノテーションを拡張します。
このブートストラップにより、他の標準 NER モデルをトレーニングするためのデータ品質が大幅に向上します。通常、これらのモデルは高速ですが、部分的にラベル付けされたデータの処理能力が低く、GenToC と同等のパフォーマンスを達成できるようになります。
私たちの結果は、部分的にラベル付けされたデータの限られたセットから学習し、より効率的なモデルのトレーニングを改善し、属性と値のペアの自動抽出を進める GenToC の独自の能力を示しています。
最後に、私たちのモデルはインド最大の B2B 電子商取引プラットフォームである IndiaMART に正常に統合され、89.5% という高精度を達成しながら、正しく識別された属性と値のペアの数が既存の導入システムと比較して 20.2% という大幅な増加を達成しました。

要約(オリジナル)

In the e-commerce domain, the accurate extraction of attribute-value pairs (e.g., Brand: Apple) from product titles and user search queries is crucial for enhancing search and recommendation systems. A major challenge with neural models for this task is the lack of high-quality training data, as the annotations for attribute-value pairs in the available datasets are often incomplete. To address this, we introduce GenToC, a model designed for training directly with partially-labeled data, eliminating the necessity for a fully annotated dataset. GenToC employs a marker-augmented generative model to identify potential attributes, followed by a token classification model that determines the associated values for each attribute. GenToC outperforms existing state-of-the-art models, exhibiting upto 56.3% increase in the number of accurate extractions. Furthermore, we utilize GenToC to regenerate the training dataset to expand attribute-value annotations. This bootstrapping substantially improves the data quality for training other standard NER models, which are typically faster but less capable in handling partially-labeled data, enabling them to achieve comparable performance to GenToC. Our results demonstrate GenToC’s unique ability to learn from a limited set of partially-labeled data and improve the training of more efficient models, advancing the automated extraction of attribute-value pairs. Finally, our model has been successfully integrated into IndiaMART, India’s largest B2B e-commerce platform, achieving a significant increase of 20.2% in the number of correctly identified attribute-value pairs over the existing deployed system while achieving a high precision of 89.5%.

arxiv情報

著者 D. Subhalingam,Keshav Kolluru,Mausam,Saurabh Singal
発行日 2024-11-18 06:50:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR, cs.LG パーマリンク