Scholarly Wikidata: Population and Exploration of Conference Data in Wikidata using LLMs

要約

オントロジーを使用して学術データの領域を概念的にモデル化し、それぞれのナレッジ グラフを作成するために、いくつかの取り組みが行われています。
しかし、オントロジーを自動的に取り込むための自動化手段が不足しており、セマンティック Web コミュニティのそれぞれの取り組みが必ずしも関連しているわけではないため、可能性が最大限に発揮されているように見えます。私たちは、ウィキデータのインフラストラクチャを活用し、その取り込みを自動化することで、学術データをより持続的にアクセスできるようにすることを提案します。
既存の構造化された会議データセットだけでなく、会議 Web サイトや議事録テキストなどの非構造化ソースを活用することで、LLM を介して持続可能な方法で実現します。
初期の分析では、セマンティック Web カンファレンスはウィキデータに最小限しか表現されていないことが示されていますが、私たちの方法論はウィキデータ内のコミュニティとして学術データを追加、進化、維持するのに役立つと主張します。
私たちの主な貢献には、(a) ウィキデータ内のギャップと関連するエンティティ/プロパティを特定するための学術データを表現するためのオントロジーの分析、(b) 会議メタデータ (承認など) の半自動抽出 (最小限の) 手動検証が必要です。
LLM を使用した Web サイトおよび議事録テキストからの料金、主催者の役割、プログラム委員会のメンバー、最優秀論文賞、基調講演、スポンサーなど)。
最後に、(c) 生成された学術データのデータ探索のための Wikidata コンテキストにおける視覚化ツールの拡張について説明します。
私たちの研究は、105 のセマンティック Web 関連のカンファレンスのデータに焦点を当てており、ウィキデータの 6000 以上のエンティティを拡張/追加しています。
この方法は、包括的な学術リソースとしてのウィキデータの有用性を高めるために、セマンティック Web 関連のカンファレンスを超えてより一般的に適用できることに注意することが重要です。
ソースリポジトリ: https://github.com/scholarly-wikidata/ DOI: https://doi.org/10.5281/zenodo.10989709 ライセンス: Creative Commons CC0 (データ)、MIT (コード)

要約(オリジナル)

Several initiatives have been undertaken to conceptually model the domain of scholarly data using ontologies and to create respective Knowledge Graphs. Yet, the full potential seems unleashed, as automated means for automatic population of said ontologies are lacking, and respective initiatives from the Semantic Web community are not necessarily connected: we propose to make scholarly data more sustainably accessible by leveraging Wikidata’s infrastructure and automating its population in a sustainable manner through LLMs by tapping into unstructured sources like conference Web sites and proceedings texts as well as already existing structured conference datasets. While an initial analysis shows that Semantic Web conferences are only minimally represented in Wikidata, we argue that our methodology can help to populate, evolve and maintain scholarly data as a community within Wikidata. Our main contributions include (a) an analysis of ontologies for representing scholarly data to identify gaps and relevant entities/properties in Wikidata, (b) semi-automated extraction — requiring (minimal) manual validation — of conference metadata (e.g., acceptance rates, organizer roles, programme committee members, best paper awards, keynotes, and sponsors) from websites and proceedings texts using LLMs. Finally, we discuss (c) extensions to visualization tools in the Wikidata context for data exploration of the generated scholarly data. Our study focuses on data from 105 Semantic Web-related conferences and extends/adds more than 6000 entities in Wikidata. It is important to note that the method can be more generally applicable beyond Semantic Web-related conferences for enhancing Wikidata’s utility as a comprehensive scholarly resource. Source Repository: https://github.com/scholarly-wikidata/ DOI: https://doi.org/10.5281/zenodo.10989709 License: Creative Commons CC0 (Data), MIT (Code)

arxiv情報

著者 Nandana Mihindukulasooriya,Sanju Tiwari,Daniil Dobriy,Finn Årup Nielsen,Tek Raj Chhetri,Axel Polleres
発行日 2024-11-13 15:34:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DL, cs.IR パーマリンク