GraphEval: A Knowledge-Graph Based LLM Hallucination Evaluation Framework

要約

大規模言語モデル (LLM) の応答を評価し、提供された知識に関して幻覚としても知られる矛盾を検出する方法は、LLM アプリケーションにとってますます重要になっています。
現在のメトリクスは、説明可能な決定を提供したり、応答内のすべての情報を体系的にチェックしたりする能力が不十分であり、実際に使用するには計算コストが高すぎることがよくあります。
我々は、Knowledge Graph (KG) 構造での情報表現に基づいた幻覚評価フレームワークである GraphEval を紹介します。
私たちの方法は、幻覚を起こしやすいKG内の特定のトリプルを特定するため、以前の方法よりも、反応のどこで幻覚が発生したのかについてより多くの洞察を提供します。
さらに、当社のアプローチを最先端の自然言語推論 (NLI) モデルと組み合わせて使用​​すると、生の NLI モデルを使用する場合と比較して、さまざまな幻覚ベンチマークのバランスの取れた精度が向上します。
最後に、KG の構造を利用して幻覚補正に GraphEval を使用する方法 (GraphCorrect と名付けた方法) を検討し、幻覚の大部分が実際に補正できることを示します。

要約(オリジナル)

Methods to evaluate Large Language Model (LLM) responses and detect inconsistencies, also known as hallucinations, with respect to the provided knowledge, are becoming increasingly important for LLM applications. Current metrics fall short in their ability to provide explainable decisions, systematically check all pieces of information in the response, and are often too computationally expensive to be used in practice. We present GraphEval: a hallucination evaluation framework based on representing information in Knowledge Graph (KG) structures. Our method identifies the specific triples in the KG that are prone to hallucinations and hence provides more insight into where in the response a hallucination has occurred, if at all, than previous methods. Furthermore, using our approach in conjunction with state-of-the-art natural language inference (NLI) models leads to an improvement in balanced accuracy on various hallucination benchmarks, compared to using the raw NLI models. Lastly, we explore the use of GraphEval for hallucination correction by leveraging the structure of the KG, a method we name GraphCorrect, and demonstrate that the majority of hallucinations can indeed be rectified.

arxiv情報

著者 Hannah Sansford,Nicholas Richardson,Hermina Petric Maretic,Juba Nait Saada
発行日 2024-07-15 15:11:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク