ShallowBlocker: Improving Set Similarity Joins for Blocking

要約

ブロッキングは大規模なエンティティ マッチングにおいて重要なステップですが、多くの場合、新しいデータセットごとに専門家による大幅な手動エンジニアリングが必要になります。
最近の研究では、ディープラーニングが最先端であり、従来の手法と比較して、人手を使わずに正確なブロッキングを実現できる大きな可能性を秘めていることが示されています。
ただし、実際には、このような深層学習手法は不安定であることが多く、解釈可能性がほとんどなく、ハイパーパラメーターの調整と大量の計算リソースが必要です。
この論文では、古典的な文字列類似性尺度に基づいたハンズオフ ブロッキング手法である ShallowBlocker を提案します。
これは、絶対類似度、相対類似度、ローカル カーディナリティ条件を組み合わせた新しいハイブリッド セット類似度結合を使用し、サイズ フィルターに代わる新しい効果的な事前候補フィルターを使用します。
この方法により、教師なしブロッキングと教師ありブロッキングの両方で最先端のペアの有効性がスケーラブルな方法で達成されることを示します。

要約(オリジナル)

Blocking is a crucial step in large-scale entity matching but often requires significant manual engineering from an expert for each new dataset. Recent work has show that deep learning is state-of-the-art and has great potential for achieving hands-off and accurate blocking compared to classical methods. However, in practice, such deep learning methods are often unstable, offers little interpretability, and require hyperparameter tuning and significant computational resources. In this paper, we propose a hands-off blocking method based on classical string similarity measures: ShallowBlocker. It uses a novel hybrid set similarity join combining absolute similarity, relative similarity, and local cardinality conditions with a new effective pre-candidate filter replacing size filter. We show that the method achieves state-of-the-art pair effectiveness on both unsupervised and supervised blocking in a scalable way.

arxiv情報

著者 Nils Barlaug
発行日 2023-12-26 00:31:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.DB, cs.LG パーマリンク