Pre-trained Embeddings for Entity Resolution: An Experimental Analysis [Experiment, Analysis & Benchmark]

要約

タイトル:Pre-trained Embeddings for Entity Resolution: An Experimental Analysis [Experiment, Analysis & Benchmark]

要約:
– 最近のエンティティレゾリューション(ER)に関する多くの研究は、言語モデルを含むディープラーニング技術を活用して効果を改善しようとしている。
– ERの主要なステップであるブロッキングとマッチングの両方に適用される。
– いくつかの事前学習済みの埋め込みがテストされており、最も人気のあるものはfastTextとBERTモデルのバリアントです。
– しかし、その長所と短所についての詳細な分析はまだない。
– このギャップを埋めるために、我々は17の確立されたベンチマークデータセットに対して12の主要な言語モデルの徹底的な実験的分析を行った。
– 最初に、すべての入力エンティティを密な埋め込みベクトルに変換するための彼らのベクトル化オーバーヘッドを評価する。
– 第二に、彼らのブロックパフォーマンスを調べ、詳細なスケーラビリティ分析を行い、最先端のディープラーニングベースのブロッキング手法と比較する。
– 第三に、監視されたマッチングと監視されていないマッチングの両方に対する彼らの相対的なパフォーマンスで結論を出す。
– 我々の実験結果は、主要な言語モデルの強みと弱みについての新しい洞察を提供し、研究者や実践者が実践で最も適したものを選択するのを容易にする。

要約(オリジナル)

Many recent works on Entity Resolution (ER) leverage Deep Learning techniques involving language models to improve effectiveness. This is applied to both main steps of ER, i.e., blocking and matching. Several pre-trained embeddings have been tested, with the most popular ones being fastText and variants of the BERT model. However, there is no detailed analysis of their pros and cons. To cover this gap, we perform a thorough experimental analysis of 12 popular language models over 17 established benchmark datasets. First, we assess their vectorization overhead for converting all input entities into dense embeddings vectors. Second, we investigate their blocking performance, performing a detailed scalability analysis, and comparing them with the state-of-the-art deep learning-based blocking method. Third, we conclude with their relative performance for both supervised and unsupervised matching. Our experimental results provide novel insights into the strengths and weaknesses of the main language models, facilitating researchers and practitioners to select the most suitable ones in practice.

arxiv情報

著者 Alexandros Zeakis,George Papadakis,Dimitrios Skoutas,Manolis Koubarakis
発行日 2023-04-24 08:53:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.DB パーマリンク