Benchmarking the Abilities of Large Language Models for RDF Knowledge Graph Creation and Comprehension: How Well Do LLMs Speak Turtle?

要約

大規模言語モデル (LLM) は急速に進歩しており、自然言語処理およびコーディング タスクが大幅に改善されています。
しかし、特にナレッジ グラフ エンジニアリングの領域において、データを表現する形式言語を扱う能力については、まだ十分に調査されていません。
さまざまな LLM の習熟度を評価するために、Turtle 構文でシリアル化されたナレッジ グラフを解析、理解、分析、作成する能力を調査する 5 つのタスクのセットを作成しました。
これらのタスクは、それぞれ異なる複雑さの程度を具体化し、問題の規模に合わせて拡張することができ、当社の自動評価システムである LLM-KG-Bench に統合されています。
評価には、4 つの市販の LLM (GPT-3.5、GPT-4、Claude 1.3、および Claude 2.0) と、自由にアクセスできる 2 つのオフライン モデル、GPT4All Vicuna および GPT4All Falcon 13B が含まれました。
この分析により、Turtle 表現を利用した RDF ナレッジ グラフ エンジニアリング ワークフロー内での LLM のアプリケーションに関連した LLM の長所と短所についての深い理解が得られます。
私たちの調査結果は、最新の商用モデルが Turtle 言語の習熟度の点で以前のモデルを上回っていることを示していますが、明らかな弱点も明らかにしています。
これらのモデルは、このコンテキストにおける重要な要件である出力書式設定の制約を厳密に遵守するという点では不十分です。

要約(オリジナル)

Large Language Models (LLMs) are advancing at a rapid pace, with significant improvements at natural language processing and coding tasks. Yet, their ability to work with formal languages representing data, specifically within the realm of knowledge graph engineering, remains under-investigated. To evaluate the proficiency of various LLMs, we created a set of five tasks that probe their ability to parse, understand, analyze, and create knowledge graphs serialized in Turtle syntax. These tasks, each embodying distinct degrees of complexity and being able to scale with the size of the problem, have been integrated into our automated evaluation system, the LLM-KG-Bench. The evaluation encompassed four commercially available LLMs – GPT-3.5, GPT-4, Claude 1.3, and Claude 2.0, as well as two freely accessible offline models, GPT4All Vicuna and GPT4All Falcon 13B. This analysis offers an in-depth understanding of the strengths and shortcomings of LLMs in relation to their application within RDF knowledge graph engineering workflows utilizing Turtle representation. While our findings show that the latest commercial models outperform their forerunners in terms of proficiency with the Turtle language, they also reveal an apparent weakness. These models fall short when it comes to adhering strictly to the output formatting constraints, a crucial requirement in this context.

arxiv情報

著者 Johannes Frey,Lars-Peter Meyer,Natanael Arndt,Felix Brei,Kirill Bulert
発行日 2023-09-29 10:36:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.DB パーマリンク