要約
この論文では、エンティティ グループ マッチングと呼ばれるエンドツーエンドのマルチソース エンティティ マッチング問題を提示します。この問題の目的は、複数のデータ ソースに由来するが同じ現実世界を表すレコードを同じグループに割り当てることです。
実在物。
推移的に一致するレコード、つまりノードとエッジがレコードを表すグラフ G = (V,E) 内のパスによって接続されているレコード、およびそれらが一致するかどうかに焦点を当てます。
私たちはこの問題の実例を紹介します。この問題では、異なるデータプロバイダーから発信された企業と金融証券の記録を照合することが課題となります。
また、現実世界の記録と同様のマッチング課題を提示する 2 つの新しいマルチソース ベンチマーク データセットも紹介します。
これらのレコードの特徴は、現実世界のイベントに応じて定期的に更新されることですが、更新がデータ ソース全体に均一に適用されるわけではありません。
この現象により、特定のグループのレコードの照合は推移的な情報を使用することによってのみ可能になります。
私たちの実験では、限られた量の偽陽性のペア一致予測によって大量のレコードのグループ割り当てが失敗する可能性があるため、推移的に一致するレコードを考慮することがいかに困難かを示しています。
そこで、グラフベースのプロパティを通じて誤検知のペアごとの予測を部分的に検出および削除できる手法である GraLMatch を提案します。
最後に、ラベル付きサンプルの数を減らして Transformer ベースのモデル (DistilBERT) を微調整すると、より多くのサンプルでトレーニングしたり、微調整の最適化を組み込んだりするよりも優れた最終的なエンティティ グループ マッチングがどのように得られるかを紹介し、精度がどのように決定的になるかを示します。
大量のレコードのエンティティ グループの一致を考慮します。
要約(オリジナル)
In this paper, we present an end-to-end multi-source Entity Matching problem, which we call entity group matching, where the goal is to assign to the same group, records originating from multiple data sources but representing the same real-world entity. We focus on the effects of transitively matched records, i.e. the records connected by paths in the graph G = (V,E) whose nodes and edges represent the records and whether they are a match or not. We present a real-world instance of this problem, where the challenge is to match records of companies and financial securities originating from different data providers. We also introduce two new multi-source benchmark datasets that present similar matching challenges as real-world records. A distinctive characteristic of these records is that they are regularly updated following real-world events, but updates are not applied uniformly across data sources. This phenomenon makes the matching of certain groups of records only possible through the use of transitive information. In our experiments, we illustrate how considering transitively matched records is challenging since a limited amount of false positive pairwise match predictions can throw off the group assignment of large quantities of records. Thus, we propose GraLMatch, a method that can partially detect and remove false positive pairwise predictions through graph-based properties. Finally, we showcase how fine-tuning a Transformer-based model (DistilBERT) on a reduced number of labeled samples yields a better final entity group matching than training on more samples and/or incorporating fine-tuning optimizations, illustrating how precision becomes the deciding factor in the entity group matching of large volumes of records.
arxiv情報
著者 | Fernando De Meer Pardo,Claude Lehmann,Dennis Gehrig,Andrea Nagy,Stefano Nicoli,Branka Hadji Misheva,Martin Braschler,Kurt Stockinger |
発行日 | 2024-06-21 09:44:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google