Combining Global and Local Merges in Logic-based Entity Resolution

要約

最近提案された集団エンティティ解決用の Race フレームワークでは、論理ルールと制約を使用して、同じエンティティを示すエンティティ参照のペア (著者 ID や論文 ID など) を識別します。
この識別はグローバルです。これらのエンティティ参照のすべての出現 (おそらく複数のデータベース タプルにわたって) は等しいとみなされ、マージできます。
対照的に、ローカル形式のマージは、データ値のペアを識別する場合により自然であることがよくあります。
「J.」のいくつかの出現。
「Smith」は「Joe Smith」と同一視される可能性がありますが、他のものは「Jane Smith」と統合される必要があります。
これは、値の局所的マージによってレースを拡張し、結果として生じる形式主義の計算特性を調査する動機になります。

要約(オリジナル)

In the recently proposed Lace framework for collective entity resolution, logical rules and constraints are used to identify pairs of entity references (e.g. author or paper ids) that denote the same entity. This identification is global: all occurrences of those entity references (possibly across multiple database tuples) are deemed equal and can be merged. By contrast, a local form of merge is often more natural when identifying pairs of data values, e.g. some occurrences of ‘J. Smith’ may be equated with ‘Joe Smith’, while others should merge with ‘Jane Smith’. This motivates us to extend Lace with local merges of values and explore the computational properties of the resulting formalism.

arxiv情報

著者 Meghyn Bienvenu,Gianluca Cima,Víctor Gutiérrez-Basulto,Yazmín Ibáñez-García
発行日 2023-05-26 13:38:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DB, cs.LO パーマリンク