Modern Baselines for SPARQL Semantic Parsing

要約

この作業では、自然言語の質問から SPARQL クエリを生成するタスクに焦点を当てます。このクエリは、ナレッジ グラフ (KG) 上で実行できます。
ゴールドのエンティティとリレーションが提供されていると仮定します。残りのタスクは、それらを SPARQL 語彙とともに正しい順序で配置し、トークンを入力して正しい SPARQL クエリを生成することです。
これまでのところ、事前トレーニング済み言語モデル (PLM) はこのタスクに関して詳しく調査されていないため、BERT 埋め込みを使用して BART、T5、および PGN (ポインター ジェネレーター ネットワーク) を実験し、このタスクのための PLM 時代の新しいベースラインを探しています。
DBpedia および Wikidata KG 上。
T5 は特別な入力トークン化を必要としますが、LC-QuAD 1.0 および LC-QuAD 2.0 データセットで最先端のパフォーマンスを生み出し、以前の研究のタスク固有のモデルを上回るパフォーマンスを示すことを示します。
さらに、この方法により、入力の一部を出力クエリにコピーする必要がある質問の意味解析が可能になり、KG 意味解析の新しいパラダイムが可能になります。

要約(オリジナル)

In this work, we focus on the task of generating SPARQL queries from natural language questions, which can then be executed on Knowledge Graphs (KGs). We assume that gold entity and relations have been provided, and the remaining task is to arrange them in the right order along with SPARQL vocabulary, and input tokens to produce the correct SPARQL query. Pre-trained Language Models (PLMs) have not been explored in depth on this task so far, so we experiment with BART, T5 and PGNs (Pointer Generator Networks) with BERT embeddings, looking for new baselines in the PLM era for this task, on DBpedia and Wikidata KGs. We show that T5 requires special input tokenisation, but produces state of the art performance on LC-QuAD 1.0 and LC-QuAD 2.0 datasets, and outperforms task-specific models from previous works. Moreover, the methods enable semantic parsing for questions where a part of the input needs to be copied to the output query, thus enabling a new paradigm in KG semantic parsing.

arxiv情報

著者 Debayan Banerjee,Pranav Ajit Nair,Jivat Neet Kaur,Ricardo Usbeck,Chris Biemann
発行日 2023-09-14 08:50:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR パーマリンク