Can Knowledge Graphs Make Large Language Models More Trustworthy? An Empirical Study over Open-ended Question Answering

要約

ナレッジ グラフ (KG) を統合する最近の研究により、大規模言語モデル (LLM) の推論精度の向上が期待できる改善につながりました。
ただし、現在のベンチマークは主にクローズドなタスクに焦点を当てており、より複雑な現実世界のシナリオの評価にはギャップが残っています。
このギャップは、LLM の幻覚の問題を軽減する KG の可能性の評価も曖昧にしています。
ギャップを埋めるために、オープンエンドの実際の質問応答シナリオの下で、KG で強化された LLM を評価するために特別に設計された新しいベンチマークである OKGQA を導入します。
OKGQA は、さまざまな種類の質問を使用して実際のアプリケーションの複雑さを厳密に反映するように設計されており、幻覚の減少と推論能力の強化の両方を測定するための特定の指標が組み込まれています。
KG にさまざまなレベルの間違いがある可能性があるシナリオを検討するために、KG のセマンティクスと構造が意図的に混乱および汚染された場合のモデルのパフォーマンスを評価するために、OKGQA-P を設定する別の実験をさらに提案します。
OKGQA の目的は、(1) 無制限の設定で KG が LLM の信頼性を高めることができるかどうかを調査すること、(2) 比較分析を行って、LLM の幻覚を軽減するために KG を活用する方法と将来の方向性を明らかにすることです。
私たちは、この調査により、より完全なパフォーマンスの比較が容易になり、KG と LLM の統合における継続的な改善が促進されると信じています。

要約(オリジナル)

Recent works integrating Knowledge Graphs (KGs) have led to promising improvements in enhancing reasoning accuracy of Large Language Models (LLMs). However, current benchmarks mainly focus on closed tasks, leaving a gap in the assessment of more complex, real-world scenarios. This gap has also obscured the evaluation of KGs’ potential to mitigate the problem of hallucination in LLMs. To fill the gap, we introduce OKGQA, a new benchmark specifically designed to assess LLMs enhanced with KGs under open-ended, real-world question answering scenarios. OKGQA is designed to closely reflect the complexities of practical applications using questions from different types, and incorporates specific metrics to measure both the reduction in hallucinations and the enhancement in reasoning capabilities. To consider the scenario in which KGs may have varying levels of mistakes, we further propose another experiment setting OKGQA-P to assess model performance when the semantics and structure of KGs are deliberately perturbed and contaminated. OKGQA aims to (1) explore whether KGs can make LLMs more trustworthy in an open-ended setting, and (2) conduct a comparative analysis to shed light on methods and future directions for leveraging KGs to reduce LLMs’ hallucination. We believe that this study can facilitate a more complete performance comparison and encourage continuous improvement in integrating KGs with LLMs.

arxiv情報

著者 Yuan Sui,Bryan Hooi
発行日 2024-10-10 16:29:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク