Using ChatGPT for Entity Matching

要約

タイトル:エンティティマッチングにChatGPTを使用すること

要約:

– エンティティマッチングは、2つのエンティティ記述が同じ実世界のエンティティを参照しているかどうかを判断するタスク。現在のエンティティマッチング手法は、BERTやRoBERTaなどのTransformerモデルを微調整することが多い。
– これらのモデルをエンティティマッチングに使用する場合、モデルが適切なパフォーマンスを実現するためには、多くの微調整データが必要であり、また、微調整されたモデルは、配布外のエンティティに対して堅牢でないという2つの主要な欠点がある。
– この論文では、従来のTransformerモデルの代わりに、エンティティマッチングにChatGPTを使用することを調査する。ChatGPTは、トレーニングデータを効率的に利用し、より堅牢な代替手段となる。
– 3つの次元(i)一般的なプロンプトデザイン、(ii)コンテキスト内学習、および(iii)高レベルのマッチング知識の提供)で実験を行う。
– ChatGPTは、RoBERTaモデルと競合し、RoBERTaが同様のパフォーマンスを実現するために2000のトレーニング例が必要な困難なマッチングタスクにおいて、83% F1の平均ゼロショットパフォーマンスに達したことを示す。
– プロンプトにコンテキスト例を追加すると、手作業で選ばれた20個の例でも、F1が最大5%向上する。最後に、ゼロショットモデルを高レベルのマッチングルールでガイドすることで、コンテキスト例を提供するのと同様の利益が得られることを示す。

要約(オリジナル)

Entity Matching is the task of deciding if two entity descriptions refer to the same real-world entity. State-of-the-art entity matching methods often rely on fine-tuning Transformer models such as BERT or RoBERTa. Two major drawbacks of using these models for entity matching are that (i) the models require significant amounts of fine-tuning data for reaching a good performance and (ii) the fine-tuned models are not robust concerning out-of-distribution entities. In this paper, we investigate using ChatGPT for entity matching as a more robust, training data-efficient alternative to traditional Transformer models. We perform experiments along three dimensions: (i) general prompt design, (ii) in-context learning, and (iii) provision of higher-level matching knowledge. We show that ChatGPT is competitive with a fine-tuned RoBERTa model, reaching an average zero-shot performance of 83% F1 on a challenging matching task on which RoBERTa requires 2000 training examples for reaching a similar performance. Adding in-context demonstrations to the prompts further improves the F1 by up to 5% even using only a small set of 20 handpicked examples. Finally, we show that guiding the zero-shot model by stating higher-level matching rules leads to similar gains as providing in-context examples.

arxiv情報

著者 Ralph Peeters,Christian Bizer
発行日 2023-05-05 10:39:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク