要約
大規模言語モデル(LLM)と知識グラフ(KG)の統合は、知識駆動型アプリケーションに大きな相乗効果をもたらす可能性がある。可能性のある統合の1つは、セマンティック・ウェブで使用されるような形式言語の解釈と生成であり、SPARQLはKGにアクセスするためのコア技術である。本論文では、LLMがSPARQL、特にSPARQL SELECTクエリと連携して動作する能力を、定量的なアプローチで測定することに焦点を当てる。 LLM-KG-Benchフレームワークにさまざまなベンチマークタスクを実装し、複数のLLMで自動実行と評価を行いました。タスクは、構文、セマンティックリード、セマンティッククリエイト、ナレッジグラフプロンプトインクルージョンの役割の次元で能力を評価する。 この新しいベンチマークタスクで、GPT、Gemini、Claudeの各モデルを評価した。その結果、SPARQL SELECTクエリの処理はLLMにとって依然として困難であり、タスクの複雑さだけでなく特定のLLMにも大きく依存することがわかった。基本的な構文エラーを修正することは、現在評価されているLLMの中で最も優れているLLMでは問題ないようですが、意味的に正しいSPARQL SELECTクエリを作成することは、いくつかのケースで困難です。
要約(オリジナル)
The integration of Large Language Models (LLMs) with Knowledge Graphs (KGs) offers significant synergistic potential for knowledge-driven applications. One possible integration is the interpretation and generation of formal languages, such as those used in the Semantic Web, with SPARQL being a core technology for accessing KGs. In this paper, we focus on measuring out-of-the box capabilities of LLMs to work with SPARQL and more specifically with SPARQL SELECT queries applying a quantitative approach. We implemented various benchmarking tasks in the LLM-KG-Bench framework for automated execution and evaluation with several LLMs. The tasks assess capabilities along the dimensions of syntax, semantic read, semantic create, and the role of knowledge graph prompt inclusion. With this new benchmarking tasks, we evaluated a selection of GPT, Gemini, and Claude models. Our findings indicate that working with SPARQL SELECT queries is still challenging for LLMs and heavily depends on the specific LLM as well as the complexity of the task. While fixing basic syntax errors seems to pose no problems for the best of the current LLMs evaluated, creating semantically correct SPARQL SELECT queries is difficult in several cases.
arxiv情報
著者 | Lars-Peter Meyer,Johannes Frey,Felix Brei,Natanael Arndt |
発行日 | 2025-04-04 11:59:49+00:00 |
arxivサイト | arxiv_id(pdf) |