Right for Right Reasons: Large Language Models for Verifiable Commonsense Knowledge Graph Question Answering

要約

ナレッジグラフ質問応答(KGQA)メソッドは、知識グラフ(KG)に保存されている関係情報を使用して、自然言語の質問に答えようとします。
大規模な言語モデル(LLM)の最近の進歩とそれらの顕著な推論能力により、KGQAのためにそれらを活用する傾向が高まっています。
しかし、既存の方法論は、事実上の質問に答えることにのみ焦点を合わせています。たとえば、「シルヴィオベルルスコーニの最初の妻が生まれたものでしたか?」。たとえば、実際のユーザーがより頻繁にポーズをとることができるというコモンセンスの推論を含む質問を残します。
対処されていない。
この作業では、KGQAの既存のLLMベースの方法、特にロングテールエンティティ(例えば、非最近のエンティティや最近のエンティティなど)を対象としたクエリでの幻覚と闘うため、特に推論プロセスが容易に立派ではないため、実際のアプリケーションでの適用性を妨げることが最初に観察します。
これに応じて、私たちは正しい理由(R3)であると提案します。これは、LLMの本質的に共感的な知識を公理的に浮上させ、KGトリプルのあらゆる事実上の推論ステップを接地することにより、検証可能な推論手順を可能にします。
3つの異なるタスクにわたる実験的評価(質問への回答、請求の検証、および優先マッチング)にわたる私たちの調査結果は、R3を優れたアプローチとして紹介し、既存の方法論を上回り、特に幻覚と推論エラーのインスタンスを削減します。

要約(オリジナル)

Knowledge Graph Question Answering (KGQA) methods seek to answer Natural Language questions using the relational information stored in Knowledge Graphs (KGs). With the recent advancements of Large Language Models (LLMs) and their remarkable reasoning abilities, there is a growing trend to leverage them for KGQA. However, existing methodologies have only focused on answering factual questions, e.g., ‘In which city was Silvio Berlusconi’s first wife born?’, leaving questions involving commonsense reasoning that real-world users may pose more often, e.g., ‘Do I need separate visas to see the Venus of Willendorf and attend the Olympics this summer?’ unaddressed. In this work, we first observe that existing LLM-based methods for KGQA struggle with hallucination on such questions, especially on queries targeting long-tail entities (e.g., non-mainstream and recent entities), thus hindering their applicability in real-world applications especially since their reasoning processes are not easily verifiable. In response, we propose Right for Right Reasons (R3), a commonsense KGQA methodology that allows for a verifiable reasoning procedure by axiomatically surfacing intrinsic commonsense knowledge of LLMs and grounding every factual reasoning step on KG triples. Through experimental evaluations across three different tasks–question answering, claim verification, and preference matching–our findings showcase R3 as a superior approach, outperforming existing methodologies and notably reducing instances of hallucination and reasoning errors.

arxiv情報

著者 Armin Toroghi,Willis Guo,Mohammad Mahdi Abdollah Pour,Scott Sanner
発行日 2025-03-25 17:44:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, I.2.7 パーマリンク