要約
ナレッジグラフは、辞書編集データの語彙セマンな構造を表すための優れたソリューションを提供します。
ただし、SPARQLクエリ言語を使用することは、このテクノロジーの利点から利益を得ることができる多くの非専門家ユーザーにとってかなりのハードルです。
このペーパーでは、ウィキダタなどの知識グラフに関する辞書編集データ取得のための自然言語インターフェイスを作成するという課題に取り組んでいます。
Wikidataの辞書編集データオントロジーモジュールの複雑さを4つのディメンションでキャプチャする多次元分類法を開発し、自然言語の発話からSPARQLクエリまで120万を超えるマッピングを備えたテンプレートベースのデータセットを作成します。
GPT-2(124M)、PHI-1.5(1.3B)、およびGPT-3.5ターボを使用した実験では、モデル機能に大きな違いが明らかになりました。
すべてのモデルは馴染みのあるパターンでうまく機能しますが、GPT-3.5ターボのみが意味のある一般化機能を示しており、このドメインでの適応性にモデルサイズと多様なトレーニングが重要であることを示唆しています。
ただし、堅牢な一般化を達成し、多様な言語データの処理、および辞書的知識表現の完全な複雑さに対応できるスケーラブルなソリューションの開発には、重要な課題が残っています。
要約(オリジナル)
Knowledge graphs offer an excellent solution for representing the lexical-semantic structures of lexicographic data. However, working with the SPARQL query language represents a considerable hurdle for many non-expert users who could benefit from the advantages of this technology. This paper addresses the challenge of creating natural language interfaces for lexicographic data retrieval on knowledge graphs such as Wikidata. We develop a multidimensional taxonomy capturing the complexity of Wikidata’s lexicographic data ontology module through four dimensions and create a template-based dataset with over 1.2 million mappings from natural language utterances to SPARQL queries. Our experiments with GPT-2 (124M), Phi-1.5 (1.3B), and GPT-3.5-Turbo reveal significant differences in model capabilities. While all models perform well on familiar patterns, only GPT-3.5-Turbo demonstrates meaningful generalization capabilities, suggesting that model size and diverse pre-training are crucial for adaptability in this domain. However, significant challenges remain in achieving robust generalization, handling diverse linguistic data, and developing scalable solutions that can accommodate the full complexity of lexicographic knowledge representation.
arxiv情報
著者 | Kilian Sennrich,Sina Ahmadi |
発行日 | 2025-05-26 13:34:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google