Entity Matching using Large Language Models

要約

エンティティ マッチングは、2 つのエンティティの説明が同じ現実世界のエンティティを参照しているかどうかを判断するタスクであり、ほとんどのデータ統合パイプラインの中心的なステップです。
最先端のエンティティ マッチング手法の多くは、BERT や RoBERTa などの事前トレーニング済み言語モデル (PLM) に依存しています。
エンティティ マッチングに関するこれらのモデルの 2 つの主な欠点は、(i) モデルが大量のタスク固有のトレーニング データを必要とすること、および (ii) 微調整されたモデルが分布外のエンティティに関して堅牢でないことです。
このペーパーでは、タスク固有のトレーニング データ依存性が低く、PLM ベースのマッチャーに代わるより堅牢な代替手段として、生成大規模言語モデル (LLM) を使用する方法について調査します。
私たちの調査では、ローカルで実行できるホスト型およびオープンソースの LLM を対象としています。
これらのモデルをゼロショット シナリオとタスク固有のトレーニング データが利用可能なシナリオで評価します。
さまざまなプロンプト設計とモデルのプロンプト感度を比較し、単一の最適なプロンプトはなく、モデルとデータセットの組み合わせごとに調整する必要があることを示します。
さらに、(i) コンテキスト内のデモンストレーションの選択、(ii) 一致ルールの生成、および (iii) 同じトレーニング データ プールを使用したホストされた LLM の微調整について調査します。
私たちの実験によると、最良の LLM は、数千のサンプルを使用して微調整された PLM と同様に実行するために、トレーニング サンプルをまったく必要としない、またはわずか数個しか必要としません。
LLM ベースのマッチャーは、目に見えないエンティティに対してさらに高い堅牢性を示します。
GPT4 が照合決定に対する構造化された説明を生成できることを示します。
このモデルは、誤った決定の説明を分析することにより、照合エラーの潜在的な原因を自動的に特定できます。
このモデルが、特定されたエラー クラスの意味のあるテキスト説明を生成できることを実証します。これは、データ エンジニアがエンティティ マッチング パイプラインを改善するのに役立ちます。

要約(オリジナル)

Entity Matching is the task of deciding whether two entity descriptions refer to the same real-world entity and is a central step in most data integration pipelines. Many state-of-the-art entity matching methods rely on pre-trained language models (PLMs) such as BERT or RoBERTa. Two major drawbacks of these models for entity matching are that (i) the models require significant amounts of task-specific training data and (ii) the fine-tuned models are not robust concerning out-of-distribution entities. This paper investigates using generative large language models (LLMs) as a less task-specific training data-dependent and more robust alternative to PLM-based matchers. Our study covers hosted and open-source LLMs, which can be run locally. We evaluate these models in a zero-shot scenario and a scenario where task-specific training data is available. We compare different prompt designs and the prompt sensitivity of the models and show that there is no single best prompt but needs to be tuned for each model/dataset combination. We further investigate (i) the selection of in-context demonstrations, (ii) the generation of matching rules, as well as (iii) fine-tuning a hosted LLM using the same pool of training data. Our experiments show that the best LLMs require no or only a few training examples to perform similarly to PLMs that were fine-tuned using thousands of examples. LLM-based matchers further exhibit higher robustness to unseen entities. We show that GPT4 can generate structured explanations for matching decisions. The model can automatically identify potential causes of matching errors by analyzing explanations of wrong decisions. We demonstrate that the model can generate meaningful textual descriptions of the identified error classes, which can help data engineers improve entity matching pipelines.

arxiv情報

著者 Ralph Peeters,Christian Bizer
発行日 2024-06-05 15:33:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク