Spider4SPARQL: A Complex Benchmark for Evaluating Knowledge Graph Question Answering Systems

要約

最近、大規模言語モデル (LLM) の数と可用性が急増しているため、ナレッジ グラフ質問応答 (KGQA) システムを評価するための大規模で現実的なベンチマークを提供することがますます重要になっています。
これまでのところ、ベンチマークの大部分はパターンベースの SPARQL クエリ生成アプローチに依存しています。
その後の自然言語 (NL) 質問の生成は、クラウドソーシングや、ルールベースの言い換えや NL 質問テンプレートなどの他の自動化された方法を通じて行われます。
これらのデータセットの中にはかなりのサイズのものもありますが、パターンベースの生成アプローチに落とし穴があり、現実世界のコンテキストで人間が尋ねる漠然とした言語的に多様な質問に必ずしもうまく一般化できるわけではありません。
このペーパーでは、Spider4SPARQL を紹介します。これは、以前に手動で生成された 9,693 個の既存の NL 質問と、さまざまな複雑さの 4,721 個のユニークで新規の複雑な SPARQL クエリを特徴とする新しい SPARQL ベンチマーク データセットです。
NL/SPARQL ペアに加えて、138 の異なるドメインをカバーする、対応する 166 のナレッジ グラフとオントロジーも提供します。
当社の複雑なベンチマークにより、最新の KGQA システムの長所と短所を評価する新しい方法が可能になります。
私たちは最先端の KGQA システムと LLM を使用してシステムを評価しましたが、実行精度は最大 45\% しか達成できず、Spider4SPARQL が将来の研究にとって挑戦的なベンチマークであることが実証されました。

要約(オリジナル)

With the recent spike in the number and availability of Large Language Models (LLMs), it has become increasingly important to provide large and realistic benchmarks for evaluating Knowledge Graph Question Answering (KGQA) systems. So far the majority of benchmarks rely on pattern-based SPARQL query generation approaches. The subsequent natural language (NL) question generation is conducted through crowdsourcing or other automated methods, such as rule-based paraphrasing or NL question templates. Although some of these datasets are of considerable size, their pitfall lies in their pattern-based generation approaches, which do not always generalize well to the vague and linguistically diverse questions asked by humans in real-world contexts. In this paper, we introduce Spider4SPARQL – a new SPARQL benchmark dataset featuring 9,693 previously existing manually generated NL questions and 4,721 unique, novel, and complex SPARQL queries of varying complexity. In addition to the NL/SPARQL pairs, we also provide their corresponding 166 knowledge graphs and ontologies, which cover 138 different domains. Our complex benchmark enables novel ways of evaluating the strengths and weaknesses of modern KGQA systems. We evaluate the system with state-of-the-art KGQA systems as well as LLMs, which achieve only up to 45\% execution accuracy, demonstrating that Spider4SPARQL is a challenging benchmark for future research.

arxiv情報

著者 Catherine Kosten,Philippe Cudré-Mauroux,Kurt Stockinger
発行日 2023-12-08 08:52:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク