ExtractGPT: Exploring the Potential of Large Language Models for Product Attribute Value Extraction

要約

ファセット製品検索や製品比較などの機能を促進するために、eコマース・プラットフォームは、正確な属性と値のペアを含む、正確に構造化された製品データを必要とします。ベンダーは、多くの場合、オファーのタイトルとテキストの説明だけで構成される構造化されていない商品説明を提供します。そのため、タイトルと説明文から属性値を抽出することは、電子商取引プラットフォームにとって不可欠です。BERTのような、事前に訓練された言語モデルに基づく最新の属性値抽出手法は、2つの欠点に直面している。(i)この手法は、タスクに特化した大量の訓練データを必要とし、(ii)微調整されたモデルは、訓練データに含まれていない未知の属性値への汎化に問題がある。本稿では、既存のAVE手法に代わる、より訓練データ効率が高く、よりロバストな手法として、大規模言語モデルを用いる可能性を探る。LLMに抽出対象の属性を記述するためのプロンプトテンプレートを提案し、ゼロショットと少数ショットの両方のシナリオをカバーする。ゼロショットシナリオでは、属性のテキスト表現とJSONベースのターゲットスキーマ表現を比較する。少数ショットのシナリオでは、(i)属性値の例の提供、(ii)文脈内のデモの選択、(iii)位置の偏りを防ぐためのシャッフルされたアンサンブル、(iv)LLMの微調整を調査する。GPT-3.5やGPT-4などのホスト型LLMや、ローカルで実行可能なオープンソースLLMと組み合わせて、プロンプトテンプレートを評価する。LLMの性能をPLMベースの手法であるSU-OpenTag、AVEQA、MAVEQAと比較した。最も高い平均F1スコア86%を達成したのはGPT-4であった。Llama-3-70BはGPT-4より3%悪いだけで、オープンソースの代替手法として競争力があります。同じ訓練データが与えられた場合、このプロンプトとGPT-4の組み合わせは、最高のPLMベースラインを平均6%のF1スコアで上回った。

要約(オリジナル)

In order to facilitate features such as faceted product search and product comparison, e-commerce platforms require accurately structured product data, including precise attribute/value pairs. Vendors often times provide unstructured product descriptions consisting only of an offer title and a textual description. Consequently, extracting attribute values from titles and descriptions is vital for e-commerce platforms. State-of-the-art attribute value extraction methods based on pre-trained language models, such as BERT, face two drawbacks (i) the methods require significant amounts of task-specific training data and (ii) the fine-tuned models have problems with generalising to unseen attribute values that were not part of the training data. This paper explores the potential of using large language models as a more training data-efficient and more robust alternative to existing AVE methods. We propose prompt templates for describing the target attributes of the extraction to the LLM, covering both zero-shot and few-shot scenarios. In the zero-shot scenario, textual and JSON-based target schema representations of the attributes are compared. In the few-shot scenario, we investigate (i) the provision of example attribute values, (ii) the selection of in-context demonstrations, (iii) shuffled ensembling to prevent position bias, and (iv) fine-tuning the LLM. We evaluate the prompt templates in combination with hosted LLMs, such as GPT-3.5 and GPT-4, and open-source LLMs which can be run locally. We compare the performance of the LLMs to the PLM-based methods SU-OpenTag, AVEQA, and MAVEQA. The highest average F1-score of 86% was achieved by GPT-4. Llama-3-70B performs only 3% worse than GPT-4, making it a competitive open-source alternative. Given the same training data, this prompt/GPT-4 combination outperforms the best PLM baseline by an average of 6% F1-score.

arxiv情報

著者 Alexander Brinkmann,Roee Shraga,Christian Bizer
発行日 2024-09-02 12:36:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク