SLHCat: Mapping Wikipedia Categories and Lists to DBpedia by Leveraging Semantic, Lexical, and Hierarchical Features

要約

ウィキペディアの記事はカテゴリーとリストによって階層的に編成されており、最も包括的かつ普遍的な分類法の 1 つを提供していますが、そのオープンな作成により冗長性や不一致が生じています。
DBPedia クラスを Wikipedia のカテゴリとリストに割り当てると、問題が軽減され、エンティティのリンクと型指定を通じてデジタル コンテンツを分類するために不可欠な大規模なナレッジ グラフが実現します。
ただし、CaLiGraph の既存のアプローチでは、不完全で粒度の細かいマッピングが作成されません。
この論文では、オントロジーのアライメントとして問題に取り組みます。この問題では、ナレッジ グラフの構造情報とオントロジー クラス名の語彙的および意味論的特徴が、信頼性の高いマッピングを発見するために利用され、その後、遠隔監視方式で事前トレーニングされた言語モデルを微調整するために利用されます。
私たちのメソッド SLHCat は 2 つの主要な部分で構成されています。 1) ナレッジ グラフ構造、意味論的な類似性、および名前付きエンティティのタイピングを利用してトレーニング データを自動的に生成します。
2) 事前トレーニング済み言語モデル BERT の微調整と即時調整がトレーニング データに対して実行され、クラス名の意味論的および構文的特性がキャプチャされます。
私たちのモデル SLHCat は、3000 のきめの細かい CaLiGraph-DBpedia マッピング ペアに注釈を付けることで構築されたベンチマーク データセットに対して評価されます。
SLHCat は、ベースライン モデルを 25% という大幅な精度で上回っており、大規模なオントロジー マッピングに実用的なソリューションを提供します。

要約(オリジナル)

Wikipedia articles are hierarchically organized through categories and lists, providing one of the most comprehensive and universal taxonomy, but its open creation is causing redundancies and inconsistencies. Assigning DBPedia classes to Wikipedia categories and lists can alleviate the problem, realizing a large knowledge graph which is essential for categorizing digital contents through entity linking and typing. However, the existing approach of CaLiGraph is producing incomplete and non-fine grained mappings. In this paper, we tackle the problem as ontology alignment, where structural information of knowledge graphs and lexical and semantic features of ontology class names are utilized to discover confident mappings, which are in turn utilized for finetuing pretrained language models in a distant supervision fashion. Our method SLHCat consists of two main parts: 1) Automatically generating training data by leveraging knowledge graph structure, semantic similarities, and named entity typing. 2) Finetuning and prompt-tuning of the pre-trained language model BERT are carried out over the training data, to capture semantic and syntactic properties of class names. Our model SLHCat is evaluated over a benchmark dataset constructed by annotating 3000 fine-grained CaLiGraph-DBpedia mapping pairs. SLHCat is outperforming the baseline model by a large margin of 25% in accuracy, offering a practical solution for large-scale ontology mapping.

arxiv情報

著者 Zhaoyi Wang,Zhenyang Zhang,Jiaxin Qin,Mizuho Iwaihara
発行日 2023-09-27 11:09:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.DL パーマリンク