要約
ナレッジ グラフ構築 (KGC) は、高品質の核から始まり、有益なループでの知識抽出アプローチによって洗練される反復プロセスとして見ることができます。
このような核は、ウィキデータのようなオープンな KG に存在する知識から得ることができます。
ただし、このような汎用 KG のサイズが大きいため、それらを全体として統合すると、無関係なコンテンツやスケーラビリティの問題が発生する可能性があります。
我々は、汎用 KG 内の対象となるシード エンティティから開始して、隣接するエンティティを保持または削除する、類似ベースのアプローチを提案します。
私たちは、ドメイン同種または異種のシード エンティティを含む 2 つの手動でラベル付けされたデータセットを通じて、ウィキデータに対するアプローチを評価します。
私たちは、アナロジーベースのアプローチが、大幅に少ないパラメーター数で LSTM、ランダム フォレスト、SVM、MLP よりも優れたパフォーマンスを発揮することを経験的に示しています。
また、転移学習設定における一般化の可能性も評価します。
これらの結果は、KG ライフサイクルに関連するタスクにアナロジーベースの推論をさらに統合することを提唱しています。
要約(オリジナル)
Knowledge Graph Construction (KGC) can be seen as an iterative process starting from a high quality nucleus that is refined by knowledge extraction approaches in a virtuous loop. Such a nucleus can be obtained from knowledge existing in an open KG like Wikidata. However, due to the size of such generic KGs, integrating them as a whole may entail irrelevant content and scalability issues. We propose an analogy-based approach that starts from seed entities of interest in a generic KG, and keeps or prunes their neighboring entities. We evaluate our approach on Wikidata through two manually labeled datasets that contain either domain-homogeneous or -heterogeneous seed entities. We empirically show that our analogy-based approach outperforms LSTM, Random Forest, SVM, and MLP, with a drastically lower number of parameters. We also evaluate its generalization potential in a transfer learning setting. These results advocate for the further integration of analogy-based inference in tasks related to the KG lifecycle.
arxiv情報
著者 | Lucas Jarnac,Miguel Couceiro,Pierre Monnin |
発行日 | 2023-06-28 15:17:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google