PyGraft: Configurable Generation of Schemas and Knowledge Graphs at Your Fingertips

要約

ナレッジ グラフ (KG) は、顕著なデータ表現および管理パラダイムとして登場しました。
通常、KG はスキーマ (オントロジーなど) によって支えられているため、事実情報だけでなく文脈上の知識も取得します。
一部のタスクでは、いくつかの KG が標準ベンチマークとしての地位を確立しました。
しかし、最近の研究では、限られたデータセットのコレクションに依存するだけでは、アプローチの一般化能力を評価するのに十分ではないことが概説されています。
教育や医療など、データに敏感な一部の分野では、公開データセットへのアクセスがさらに制限されています。
前述の問題を解決するために、高度にカスタマイズされたドメインに依存しないスキーマとナレッジ グラフを生成する Python ベースのツールである PyGraft をリリースします。
合成されたスキーマにはさまざまな RDFS および OWL 構造が含まれており、合成された KG は現実世界の KG の特性と規模をエミュレートします。
生成されたリソースの論理的一貫性は、記述ロジック (DL) 推論器を実行することによって最終的に保証されます。
PyGraft の目的は、スキーマと KG の両方を 1 つのパイプラインで生成する方法を提供することで、グラフベースの機械学習 (ML) などの分野、またはより一般的には新しいアプローチのベンチマークを行うための、より多様な KG の生成を可能にすることです。
KG加工。
特にグラフベースの ML では、これによりモデルのパフォーマンスと一般化機能のより総合的な評価が促進され、それによって利用可能なベンチマークの限られたコレクションを超えることができるはずです。
PyGraft は https://github.com/nicolas-hbt/pygraft から入手できます。

要約(オリジナル)

Knowledge graphs (KGs) have emerged as a prominent data representation and management paradigm. Being usually underpinned by a schema (e.g. an ontology), KGs capture not only factual information but also contextual knowledge. In some tasks, a few KGs established themselves as standard benchmarks. However, recent works outline that relying on a limited collection of datasets is not sufficient to assess the generalization capability of an approach. In some data-sensitive fields such as education or medicine, access to public datasets is even more limited. To remedy the aforementioned issues, we release PyGraft, a Python-based tool that generates highly customized, domain-agnostic schemas and knowledge graphs. The synthesized schemas encompass various RDFS and OWL constructs, while the synthesized KGs emulate the characteristics and scale of real-world KGs. Logical consistency of the generated resources is ultimately ensured by running a description logic (DL) reasoner. By providing a way of generating both a schema and KG in a single pipeline, PyGraft’s aim is to empower the generation of a more diverse array of KGs for benchmarking novel approaches in areas such as graph-based machine learning (ML), or more generally KG processing. In graph-based ML in particular, this should foster a more holistic evaluation of model performance and generalization capability, thereby going beyond the limited collection of available benchmarks. PyGraft is available at: https://github.com/nicolas-hbt/pygraft.

arxiv情報

著者 Nicolas Hubert,Pierre Monnin,Mathieu d’Aquin,Armelle Brun,Davy Monticolo
発行日 2023-09-07 13:00:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SE パーマリンク