A Unified Generative Approach to Product Attribute-Value Identification

要約

製品属性値識別 (PAVI) は、商品テキストを手がかりとして、電子商取引サイト上の商品とその属性値 (例: <素材、綿>) を結び付けるために研究されています。
現実世界の電子商取引プラットフォームからの技術的要求には、目に見えない値、複数の属性値、および正規化された値を処理するための PAVI メソッドが必要ですが、既存の抽出ベースおよび分類ベースのアプローチでは部分的にしか対応されていません。
これを動機として、私たちは PAVI タスクに対する生成的アプローチを模索します。
事前トレーニングされた生成モデル T5 を微調整して、指定された製品テキストから一連の属性と値のペアをターゲット シーケンスとしてデコードします。
属性値のペアは順序付けされていないセット要素であるため、それらをどのように線形化するかが重要になります。
したがって、属性と値のペアを構成し、タスク用にペアを順序付ける方法を検討します。
実験結果は、私たちの世代ベースのアプローチが、既存の抽出および分類ベースの手法を対象とした大規模な実世界のデータセットに対するそれらの手法よりも優れていることを確認しています。

要約(オリジナル)

Product attribute-value identification (PAVI) has been studied to link products on e-commerce sites with their attribute values (e.g., ) using product text as clues. Technical demands from real-world e-commerce platforms require PAVI methods to handle unseen values, multi-attribute values, and canonicalized values, which are only partly addressed in existing extraction- and classification-based approaches. Motivated by this, we explore a generative approach to the PAVI task. We finetune a pre-trained generative model, T5, to decode a set of attribute-value pairs as a target sequence from the given product text. Since the attribute value pairs are unordered set elements, how to linearize them will matter; we, thus, explore methods of composing an attribute-value pair and ordering the pairs for the task. Experimental results confirm that our generation-based approach outperforms the existing extraction and classification-based methods on large-scale real-world datasets meant for those methods.

arxiv情報

著者 Keiji Shinzato,Naoki Yoshinaga,Yandi Xia,Wei-Te Chen
発行日 2023-06-09 00:33:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク