SC-Block: Supervised Contrastive Blocking within Entity Resolution Pipelines

要約

エンティティ解決の目標は、現実世界の同じエンティティを表す複数のデータセット内のレコードを識別することです。
ただし、データセット間ですべてのレコードを比較すると、計算量が多くなり、実行時間が長くなる可能性があります。
これらの実行時間を短縮するために、エンティティ解決パイプラインは 2 つの部分で構成されています。1 つは計算コストの低い方法を適用して候補レコード ペアを選択するブロッカー、もう 1 つはより高価な方法を使用してこのセットから一致するペアを識別するマッチャーです。
この論文では、埋め込み空間内のレコードの位置決めに教師あり対比学習を利用したブロッキング手法である SC-Block と、候補セット構築のための最近傍探索を紹介します。
SC-Block を 8 つの最先端のブロック方式に対してベンチマークします。
SC-Block のトレーニング時間をエンティティ解決パイプラインの全体的な実行時間の短縮に関連付けるために、SC-Block と 4 つのマッチング メソッドを組み合わせて完全なパイプラインを作成します。
全体的な実行時間を測定するために、99.5% のペア完全性を持つ候補セットを決定し、それらをマッチャーに渡します。
結果は、SC-Block がより小さな候補セットを作成でき、SC-Block を使用したパイプラインが、F1 スコアを犠牲にすることなく、他のブロッカーを使用したパイプラインと比較して 1.5 ~ 2 倍高速に実行できることを示しています。
ブロッカーは比較的小さなデータセットを使用して評価されることが多く、大きな語彙サイズが見落とされることで実行時に影響が生じる可能性があります。
より困難な設定でランタイムを測定するために、多数の製品オファーをブロックする必要がある新しいベンチマーク データセットを導入します。
この大規模なベンチマーク データセットでは、SC-Block と最高パフォーマンスのマッチャーを利用したパイプラインは、同じマッチャーを備えた別のブロッカーを利用したパイプラインよりも 8 倍高速に実行され、実行時間が 2.5 時間から 18 分に短縮され、明らかに、実行に必要な 5 分を補っています。
SCブロックのトレーニング。

要約(オリジナル)

The goal of entity resolution is to identify records in multiple datasets that represent the same real-world entity. However, comparing all records across datasets can be computationally intensive, leading to long runtimes. To reduce these runtimes, entity resolution pipelines are constructed of two parts: a blocker that applies a computationally cheap method to select candidate record pairs, and a matcher that afterwards identifies matching pairs from this set using more expensive methods. This paper presents SC-Block, a blocking method that utilizes supervised contrastive learning for positioning records in the embedding space, and nearest neighbour search for candidate set building. We benchmark SC-Block against eight state-of-the-art blocking methods. In order to relate the training time of SC-Block to the reduction of the overall runtime of the entity resolution pipeline, we combine SC-Block with four matching methods into complete pipelines. For measuring the overall runtime, we determine candidate sets with 99.5% pair completeness and pass them to the matcher. The results show that SC-Block is able to create smaller candidate sets and pipelines with SC-Block execute 1.5 to 2 times faster compared to pipelines with other blockers, without sacrificing F1 score. Blockers are often evaluated using relatively small datasets which might lead to runtime effects resulting from a large vocabulary size being overlooked. In order to measure runtimes in a more challenging setting, we introduce a new benchmark dataset that requires large numbers of product offers to be blocked. On this large-scale benchmark dataset, pipelines utilizing SC-Block and the best-performing matcher execute 8 times faster than pipelines utilizing another blocker with the same matcher reducing the runtime from 2.5 hours to 18 minutes, clearly compensating for the 5 minutes required for training SC-Block.

arxiv情報

著者 Alexander Brinkmann,Roee Shraga,Christian Bizer
発行日 2023-06-23 12:31:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DB, cs.LG パーマリンク