Combining LLMs and Knowledge Graphs to Reduce Hallucinations in Question Answering

要約

自然言語処理の進歩により、データベースなどのデジタル情報システムと対話する方法に革命が起こり、よりアクセスしやすくなりました。
しかし、特に生物医学分野のように精度が重要な場合には課題が残ります。
重要な問題は幻覚問題で、モデルは基礎となるデータによって裏付けられていない情報を生成し、危険な誤った情報につながる可能性があります。
この論文では、生物医学の KG を例に、ラージ言語モデル (LLM) とナレッジ グラフ (KG) を組み合わせて質問応答システムの精度と信頼性を向上させることで、このギャップを埋めるように設計された新しいアプローチを紹介します。
LangChain フレームワークに基づいて構築されたこのメソッドには、LLM で生成されたクエリの構文的および意味論的な妥当性を保証するクエリ チェッカーが組み込まれており、その後、このクエリはナレッジ グラフから情報を抽出するために使用され、幻覚などのエラーを大幅に削減します。
私たちは、GPT-4 Turbo や llama3:70b などのいくつかの LLM をテストし、50 の生物医学的質問からなる新しいベンチマーク データセットを使用して全体的なパフォーマンスを評価しました。
私たちの結果は、GPT-4 Turbo が正確なクエリの生成において他のモデルよりも優れている一方で、llama3:70b のようなオープンソース モデルが適切な迅速なエンジニアリングを備えていることを示しています。
このアプローチを利用しやすくするために、ユーザーフレンドリーな Web ベースのインターフェイスが開発されました。これにより、ユーザーは自然言語クエリを入力し、生成および修正された Cypher クエリを表示し、結果のパスの正確性を検証できます。
全体として、このハイブリッド アプローチはデータ ギャップや幻覚などの一般的な問題に効果的に対処し、質問応答システムに信頼性が高く直感的なソリューションを提供します。
この論文の結果を生成するためのソース コードとユーザー インターフェイスのソース コードは、Git リポジトリにあります: https://git.zib.de/lpusch/cyphergenkg-gui

要約(オリジナル)

Advancements in natural language processing have revolutionized the way we can interact with digital information systems, such as databases, making them more accessible. However, challenges persist, especially when accuracy is critical, as in the biomedical domain. A key issue is the hallucination problem, where models generate information unsupported by the underlying data, potentially leading to dangerous misinformation. This paper presents a novel approach designed to bridge this gap by combining Large Language Models (LLM) and Knowledge Graphs (KG) to improve the accuracy and reliability of question-answering systems, on the example of a biomedical KG. Built on the LangChain framework, our method incorporates a query checker that ensures the syntactical and semantic validity of LLM-generated queries, which are then used to extract information from a Knowledge Graph, substantially reducing errors like hallucinations. We evaluated the overall performance using a new benchmark dataset of 50 biomedical questions, testing several LLMs, including GPT-4 Turbo and llama3:70b. Our results indicate that while GPT-4 Turbo outperforms other models in generating accurate queries, open-source models like llama3:70b show promise with appropriate prompt engineering. To make this approach accessible, a user-friendly web-based interface has been developed, allowing users to input natural language queries, view generated and corrected Cypher queries, and verify the resulting paths for accuracy. Overall, this hybrid approach effectively addresses common issues such as data gaps and hallucinations, offering a reliable and intuitive solution for question answering systems. The source code for generating the results of this paper and for the user-interface can be found in our Git repository: https://git.zib.de/lpusch/cyphergenkg-gui

arxiv情報

著者 Larissa Pusch,Tim O. F. Conrad
発行日 2024-09-06 10:49:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク