KGLens: Towards Efficient and Effective Knowledge Probing of Large Language Models with Knowledge Graphs

要約

大規模言語モデル (LLM) は事実を幻覚する可能性がありますが、厳選されたナレッジ グラフ (KG) は通常、特にドメイン固有の知識に関して事実として信頼できます。
KG と LLM の間の整合性を測定すると、事実を効果的に調査し、LLM の知識の盲点を特定できます。
ただし、大規模な KG にわたって LLM を検証すると、費用がかかる可能性があります。
この論文では、KG と LLM 間のアライメントを効果的かつ効率的に測定することを目的とした、トンプソン サンプリングにインスピレーションを得たフレームワークである KGLens を紹介します。
KGLens は、KG を自然言語に変換するためのグラフガイド付きの質問生成機能と、KG の探索を促進するためのパラメータ化された KG 構造に基づいた慎重に設計された重要度サンプリング戦略を備えています。
私たちのシミュレーション実験では、6 つの異なるサンプリング方法の下でブルート フォース法と KGLens を比較し、私たちのアプローチが優れたプロービング効率を達成していることを実証しました。
KGLens を活用して、19,000 を超えるエッジ、700 のリレーション、21,000 のエンティティを構成するウィキデータの 3 つの大規模なドメイン固有の KG にわたる 10 の LLM の事実の正確さの詳細な分析を実施しました。
人間による評価の結果、KGLens は人間のアノテーターとほぼ同等の精度で LLM を評価でき、95.7% の精度率を達成できることが示されました。

要約(オリジナル)

Large Language Models (LLMs) might hallucinate facts, while curated Knowledge Graph (KGs) are typically factually reliable especially with domain-specific knowledge. Measuring the alignment between KGs and LLMs can effectively probe the factualness and identify the knowledge blind spots of LLMs. However, verifying the LLMs over extensive KGs can be expensive. In this paper, we present KGLens, a Thompson-sampling-inspired framework aimed at effectively and efficiently measuring the alignment between KGs and LLMs. KGLens features a graph-guided question generator for converting KGs into natural language, along with a carefully designed importance sampling strategy based on parameterized KG structure to expedite KG traversal. Our simulation experiment compares the brute force method with KGLens under six different sampling methods, demonstrating that our approach achieves superior probing efficiency. Leveraging KGLens, we conducted in-depth analyses of the factual accuracy of ten LLMs across three large domain-specific KGs from Wikidata, composing over 19K edges, 700 relations, and 21K entities. Human evaluation results indicate that KGLens can assess LLMs with a level of accuracy nearly equivalent to that of human annotators, achieving 95.7% of the accuracy rate.

arxiv情報

著者 Shangshang Zheng,He Bai,Yizhe Zhang,Yi Su,Xiaochuan Niu,Navdeep Jaitly
発行日 2024-08-01 03:19:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク