Entity Matching using Large Language Models

要約

エンティティ マッチングは、2 つのエンティティの説明が同じ現実世界のエンティティを参照しているかどうかを判断するタスクです。
エンティティ マッチングは、ほとんどのデータ統合パイプラインの中心的なステップであり、さまざまなベンダーが提供する製品を照合する必要がある多くの電子商取引アプリケーションを実現します。
最先端のエンティティ マッチング手法は、多くの場合、BERT や RoBERTa などの事前トレーニング済み言語モデル (PLM) に依存します。
エンティティ マッチングに関するこれらのモデルの 2 つの主な欠点は、(i) モデルが大量のタスク固有のトレーニング データを必要とすること、および (ii) 微調整されたモデルが分布外のエンティティに関して堅牢でないことです。
このペーパーでは、ドメイン固有のトレーニング データにあまり依存せず、PLM ベースのマッチャーに代わるより堅牢な代替手段として、エンティティ マッチングに大規模言語モデル (LLM) を使用する方法を調査します。
私たちの調査では、GPT3.5 や GPT4 などのホスト型 LLM と、ローカルで実行できる Llama2 ベースのオープンソース LLM を対象としています。
これらのモデルは、ゼロショット シナリオだけでなく、タスク固有のトレーニング データが利用可能なシナリオでも評価されます。
さまざまなプロンプト設計と、ゼロショット シナリオでのモデルのプロンプト感度を比較します。
さまざまなアプローチにわたって同じトレーニング データのプールを使用して、(i) コンテキスト内のデモンストレーションの選択、(ii) マッチング ルールの生成、および (iii) 2 番目のシナリオでの GPT3.5 の微調整を調査します。
私たちの実験によると、タスク固有のトレーニング データを含まない GPT4 は、5 つのベンチマーク データセットのうち 3 つで、F1 スコアが約 90% に達し、微調整された PLM (RoBERTa および同上) よりも優れたパフォーマンスを示しました。
インコンテキスト学習とルール生成の実験では、GPT4 以外のすべてのモデルがこれらの手法から恩恵を受ける (平均 5.9% と 2.2% F1) 一方で、GPT4 はほとんどの場合そのような追加のガイダンスを必要としないことが示されています…

要約(オリジナル)

Entity Matching is the task of deciding whether two entity descriptions refer to the same real-world entity. Entity Matching is a central step in most data integration pipelines and an enabler for many e-commerce applications which require to match products offers from different vendors. State-of-the-art entity matching methods often rely on pre-trained language models (PLMs) such as BERT or RoBERTa. Two major drawbacks of these models for entity matching are that (i) the models require significant amounts of task-specific training data and (ii) the fine-tuned models are not robust concerning out-of-distribution entities. In this paper, we investigate using large language models (LLMs) for entity matching as a less domain-specific training data reliant and more robust alternative to PLM-based matchers. Our study covers hosted LLMs, such as GPT3.5 and GPT4, as well as open source LLMs based on Llama2 which can be run locally. We evaluate these models in a zero-shot scenario as well as a scenario where task-specific training data is available. We compare different prompt designs as well as the prompt sensitivity of the models in the zero-shot scenario. We investigate (i) the selection of in-context demonstrations, (ii) the generation of matching rules, as well as (iii) fine-tuning GPT3.5 in the second scenario using the same pool of training data across the different approaches. Our experiments show that GPT4 without any task-specific training data outperforms fine-tuned PLMs (RoBERTa and Ditto) on three out of five benchmark datasets reaching F1 scores around 90%. The experiments with in-context learning and rule generation show that all models beside of GPT4 benefit from these techniques (on average 5.9% and 2.2% F1), while GPT4 does not need such additional guidance in most cases…

arxiv情報

著者 Ralph Peeters,Christian Bizer
発行日 2023-10-17 13:12:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク