Product Attribute Value Extraction using Large Language Models

要約

電子商取引プラットフォームは、属性と値のペアの形式で構造化された製品説明に依存し、ファセット製品検索や製品比較などの機能を可能にします。
ただし、これらのプラットフォームのベンダーは、タイトルとテキストによる説明で構成される構造化されていない製品説明を提供することがよくあります。
このようなオファーを処理するには、電子商取引プラットフォームは非構造化説明から属性と値のペアを抽出する必要があります。
BERT などの事前トレーニング済み言語モデル (PLM) に基づく最先端の属性/値抽出方法には、(i) 大量のタスク固有のトレーニング データが必要である、および (ii) 微細なデータが必要であるという 2 つの欠点があります。
-tuned モデルには、トレーニング データの一部ではない属性値を一般化する際に問題があります。
私たちは、既存の属性/値抽出方法に代わる、より効率的なトレーニング データとより堅牢な代替手段として大規模言語モデル (LLM) を使用する可能性を探ります。
私たちは、抽出のターゲット スキーマについて LLM に指示するためのさまざまなプロンプト テンプレートを提案し、ゼロショット シナリオと少数ショット シナリオの両方をカバーします。
ゼロショット シナリオでは、ターゲット属性に関する情報を表現するためのテキストベースのアプローチと JSON ベースのアプローチが比較されます。
トレーニング データを含むシナリオでは、(i) サンプル属性値の提供、(ii) コンテキスト内のデモンストレーションの選択、(iii) 位置の偏りを防ぐためのシャッフル アンサンブル、および (iv) LLM の微調整を調査します。
プロンプト テンプレートは、GPT-3.5 や GPT-4 などのホスト型 LLM、およびローカルで実行できる Llama2 に基づくオープンソース LLM と組み合わせて評価されます。
属性名、属性の説明、値の例、およびデモンストレーションを組み合わせた、シャッフルされたプロンプトのアンサンブルを使用する GPT-4 によって、最高の平均 F1 スコア 86% が達成されました。
同じ量のトレーニング データが与えられた場合、このプロンプトとモデルの組み合わせは、最良の PLM ベースラインを平均 6% F1 上回ります。

要約(オリジナル)

E-commerce platforms rely on structured product descriptions, in the form of attribute/value pairs to enable features such as faceted product search and product comparison. However, vendors on these platforms often provide unstructured product descriptions consisting of a title and a textual description. To process such offers, e-commerce platforms must extract attribute/value pairs from the unstructured descriptions. State-of-the-art attribute/value extraction methods based on pre-trained language models (PLMs), such as BERT, face two drawbacks (i) the methods require significant amounts of task-specific training data and (ii) the fine-tuned models have problems to generalize to attribute values that were not part of the training data. We explore the potential of using large language models (LLMs) as a more training data-efficient and more robust alternative to existing attribute/value extraction methods. We propose different prompt templates for instructing LLMs about the target schema of the extraction, covering both zero-shot and few-shot scenarios. In the zero-shot scenario, textual and JSON-based approaches for representing information about the target attributes are compared. In the scenario with training data, we investigate (i) the provision of example attribute values, (ii) the selection of in-context demonstrations, (iii) shuffled ensembling to prevent position bias, and (iv) fine-tuning the LLM. The prompt templates are evaluated in combination with hosted LLMs, such as GPT-3.5 and GPT-4, and open-source LLMs based on Llama2 which can be run locally. The best average F1-score of 86% was reached by GPT-4 using an ensemble of shuffled prompts that combine attribute names, attribute descriptions, example values, and demonstrations. Given the same amount of training data, this prompt/model combination outperforms the best PLM baseline by an average of 6% F1.

arxiv情報

著者 Alexander Brinkmann,Roee Shraga,Christian Bizer
発行日 2024-01-26 09:07:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク