SAGE: Structured Attribute Value Generation for Billion-Scale Product Catalogs

要約

SAGE を紹介します。
世界中の電子商取引カタログにわたる製品の属性値を推測するための生成 LLM。
言語、製品タイプ、ターゲット属性にわたる Seq2Seq 要約タスクとして、属性値予測問題の新しい定式化を導入します。
私たちの新しいモデリング アプローチは、事前に指定された選択肢のセット内で属性値を予測するという制限を取り除き、求められる属性値をテキスト内で明示的に言及する必要があるという要件も取り除きます。
SAGE は、属性値が周辺言語を使用して暗黙的に言及されている場合でも、または常識的なデフォルトの場合とはまったく異なる場合でも、属性値を推測できます。
さらに、SAGE は、属性が現在の製品に適用できないのか、それとも入手可能な情報からは取得できないのかを予測することができます。
SAGE は、電子商取引カタログの実際の設定で発生する属性値予測タスクのあらゆる側面に取り組むことができる最初のメソッドです。
一連の包括的な実験により、提案されたアプローチの有効性と、競合する最先端の代替案に対するその優位性が実証されています。
さらに、私たちの実験は、ゼロショット設定で属性値を予測するタスクに取り組む SAGE の能力を強調しています。
これにより、トレーニングに必要なラベル付きサンプルの総数を大幅に減らす機会が生まれます。

要約(オリジナル)

We introduce SAGE; a Generative LLM for inferring attribute values for products across world-wide e-Commerce catalogs. We introduce a novel formulation of the attribute-value prediction problem as a Seq2Seq summarization task, across languages, product types and target attributes. Our novel modeling approach lifts the restriction of predicting attribute values within a pre-specified set of choices, as well as, the requirement that the sought attribute values need to be explicitly mentioned in the text. SAGE can infer attribute values even when such values are mentioned implicitly using periphrastic language, or not-at-all-as is the case for common-sense defaults. Additionally, SAGE is capable of predicting whether an attribute is inapplicable for the product at hand, or non-obtainable from the available information. SAGE is the first method able to tackle all aspects of the attribute-value-prediction task as they arise in practical settings in e-Commerce catalogs. A comprehensive set of experiments demonstrates the effectiveness of the proposed approach, as well as, its superiority against state-of-the-art competing alternatives. Moreover, our experiments highlight SAGE’s ability to tackle the task of predicting attribute values in zero-shot setting; thereby, opening up opportunities for significantly reducing the overall number of labeled examples required for training.

arxiv情報

著者 Athanasios N. Nikolakopoulos,Swati Kaul,Siva Karthik Gade,Bella Dubrov,Umit Batur,Suleiman Ali Khan
発行日 2023-09-12 02:24:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR パーマリンク