Disambiguate Entity Matching using Large Language Models through Relation Discovery

要約

エンティティのマッチングはデータの統合とクリーニングにおける重要な課題であり、ファジー結合や重複排除などのタスクの中心となります。
従来のアプローチは、編集距離、Jaccard 類似性、さらに最近では、GPT などの大規模言語モデル (LLM) からの進歩を含む埋め込みやディープ ニューラル ネットワークなどの方法を通じて、あいまいな用語表現を克服することに焦点を当ててきました。
ただし、エンティティ マッチングにおける中心的な課題は、特に外部データベースと統合する場合、用語のあいまいさを超えて、何が「一致」を構成するかを定義する際の曖昧さにまで及びます。
このあいまいさは、エンティティ間の詳細レベルと粒度が異なるために発生し、完全な一致が複雑になります。
私たちは、意味上の類似性を純粋に特定することから、照合における曖昧さを解決するために重要であるエンティティ間の「関係」を理解して定義することに焦点を移す、新しいアプローチを提案します。
当面のタスクに関連する一連の関係を事前定義することにより、私たちの手法を使用すると、アナリストは完全一致から概念的に関連するエンティティまで、類似性の範囲をより効果的にナビゲートできるようになります。

要約(オリジナル)

Entity matching is a critical challenge in data integration and cleaning, central to tasks like fuzzy joins and deduplication. Traditional approaches have focused on overcoming fuzzy term representations through methods such as edit distance, Jaccard similarity, and more recently, embeddings and deep neural networks, including advancements from large language models (LLMs) like GPT. However, the core challenge in entity matching extends beyond term fuzziness to the ambiguity in defining what constitutes a ‘match,’ especially when integrating with external databases. This ambiguity arises due to varying levels of detail and granularity among entities, complicating exact matches. We propose a novel approach that shifts focus from purely identifying semantic similarities to understanding and defining the ‘relations’ between entities as crucial for resolving ambiguities in matching. By predefining a set of relations relevant to the task at hand, our method allows analysts to navigate the spectrum of similarity more effectively, from exact matches to conceptually related entities.

arxiv情報

著者 Zezhou Huang
発行日 2024-05-29 14:40:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.DB パーマリンク