要約
エンティティ解決 (レコード リンケージ、マイクロクラスタリング) システムは評価が難しいことで知られています。
干し草の山から針を探す従来の評価方法では、洗練されたアプリケーション固有のサンプリング スキームを使用して、膨大な数の不一致の中から一致するレコードのペアを見つけます。
私たちは、複雑なサンプリング スキームを必要とせずに、代表的で再利用可能なベンチマーク データ セットの作成を容易にする代替案を提案します。
これらのベンチマーク データ セットは、モデルのトレーニングやさまざまな評価タスクに使用できます。
具体的には、要約統計量の監視、クラスターやペアごとの精度と再現率などの主要なパフォーマンス指標の推定、エラーの根本原因の分析のための統一フレームワークと統合されたエンティティ中心のデータラベル付け方法論を提案します。
私たちは、発明者名の曖昧さを排除し、シミュレーション研究を通じて、アプリケーション内のフレームワークを検証します。
ソフトウェア: https://github.com/OlivierBinette/er-evaluation/
要約(オリジナル)
Entity resolution (record linkage, microclustering) systems are notoriously difficult to evaluate. Looking for a needle in a haystack, traditional evaluation methods use sophisticated, application-specific sampling schemes to find matching pairs of records among an immense number of non-matches. We propose an alternative that facilitates the creation of representative, reusable benchmark data sets without necessitating complex sampling schemes. These benchmark data sets can then be used for model training and a variety of evaluation tasks. Specifically, we propose an entity-centric data labeling methodology that integrates with a unified framework for monitoring summary statistics, estimating key performance metrics such as cluster and pairwise precision and recall, and analyzing root causes for errors. We validate the framework in an application to inventor name disambiguation and through simulation studies. Software: https://github.com/OlivierBinette/er-evaluation/
arxiv情報
著者 | Olivier Binette,Youngsoo Baek,Siddharth Engineer,Christina Jones,Abel Dasylva,Jerome P. Reiter |
発行日 | 2024-04-08 15:53:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google