Graph-based Active Learning for Entity Cluster Repair

要約

クラスター修復方法は、クラスター内のエラーを特定し、各クラスターが同じエンティティを表すレコードで構成されるようにエラーを修正することを目的としています。
現在のクラスター修復方法は、主に重複のないデータ ソースを前提としています。つまり、あるソースの各レコードが別のソースの一意のレコードに対応します。
ただし、実際のデータは品質の問題により、この想定から逸脱することがよくあります。
最近のアプローチでは、クラスタリング手法をリンク分類手法と組み合わせて適用し、重複のあるデータ ソースに適用できるようにしています。
それにもかかわらず、品質は構成やデータセットによって大きく異なるため、結果は明確な全体像を示していません。
この研究では、基礎となる類似度グラフから導出されたグラフ メトリックを利用したクラスター修復の新しいアプローチを紹介します。
これらのメトリクスは、正しいエッジと誤ったエッジを区別するための分類モデルを構築する際に極めて重要です。
トレーニング データが限られているという課題に対処するために、クラスター固有の属性に合わせたアクティブ ラーニング メカニズムを統合します。
この評価では、重複のないデータ ソースとダーティ データ ソースを区別することなく、この方法が既存のクラスター修復方法よりも優れていることが示されています。
特に、修正されたアクティブ ラーニング戦略は、重複を含むデータセットを処理するときにパフォーマンスが向上し、そのようなシナリオでの有効性を示しています。

要約(オリジナル)

Cluster repair methods aim to determine errors in clusters and modify them so that each cluster consists of records representing the same entity. Current cluster repair methodologies primarily assume duplicate-free data sources, where each record from one source corresponds to a unique record from another. However, real-world data often deviates from this assumption due to quality issues. Recent approaches apply clustering methods in combination with link categorization methods so they can be applied to data sources with duplicates. Nevertheless, the results do not show a clear picture since the quality highly varies depending on the configuration and dataset. In this study, we introduce a novel approach for cluster repair that utilizes graph metrics derived from the underlying similarity graphs. These metrics are pivotal in constructing a classification model to distinguish between correct and incorrect edges. To address the challenge of limited training data, we integrate an active learning mechanism tailored to cluster-specific attributes. The evaluation shows that the method outperforms existing cluster repair methods without distinguishing between duplicate-free or dirty data sources. Notably, our modified active learning strategy exhibits enhanced performance when dealing with datasets containing duplicates, showcasing its effectiveness in such scenarios.

arxiv情報

著者 Victor Christen,Daniel Obraczka,Marvin Hofer,Martin Franke,Erhard Rahm
発行日 2024-01-26 16:42:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DB, cs.LG パーマリンク