Improving Reliability and Explainability of Medical Question Answering through Atomic Fact Checking in Retrieval-Augmented LLMs

要約

大規模な言語モデル(LLMS)は広範な医学的知識を示しますが、幻覚と不正確な引用を受けやすく、臨床採用と規制のコンプライアンスに課題をもたらします。
検索拡張生成などの現在の方法は、ソースドキュメントの回答を接地することにより、これらの問題に部分的に対処しますが、幻覚と低い事実レベルの説明可能性は持続します。
この作業では、医療用の長い形式の質問応答で使用されるLLMの信頼性と説明可能性を高めるために設計された新しい原子ファクトチェックフレームワークを紹介します。
この方法は、LLM生成された応答を原子ファクトと呼ばれる個別の検証可能な単位に分解します。それぞれは、医療ガイドラインの権威ある知識ベースに対して独立して検証されています。
このアプローチにより、ターゲットを絞ったエラーの補正と、情報源への直接追跡により、医療Q&Aの事実上の正確性と説明可能性が向上します。
医療専門家によるマルチリーダー評価を使用した広範な評価と自動化されたオープンQ&Aベンチマークは、実際には正確さと説明可能性における大幅な改善を示しました。
私たちのフレームワークは、全体的な回答の改善と50%の幻覚検出率を達成しました。
データベースから最も関連性の高いチャンクに各原子の事実を追跡する機能は、現在の医療AIアプリケーションの大きなギャップに対処する、生成された応答の詳細で透明な説明を提供します。
この研究は、LLMのより信頼できる信頼性の高い臨床応用に向けた重要なステップを表し、臨床応用の重要な前提条件に対処し、AIアシストヘルスケアに対するより大きな自信を促進します。

要約(オリジナル)

Large language models (LLMs) exhibit extensive medical knowledge but are prone to hallucinations and inaccurate citations, which pose a challenge to their clinical adoption and regulatory compliance. Current methods, such as Retrieval Augmented Generation, partially address these issues by grounding answers in source documents, but hallucinations and low fact-level explainability persist. In this work, we introduce a novel atomic fact-checking framework designed to enhance the reliability and explainability of LLMs used in medical long-form question answering. This method decomposes LLM-generated responses into discrete, verifiable units called atomic facts, each of which is independently verified against an authoritative knowledge base of medical guidelines. This approach enables targeted correction of errors and direct tracing to source literature, thereby improving the factual accuracy and explainability of medical Q&A. Extensive evaluation using multi-reader assessments by medical experts and an automated open Q&A benchmark demonstrated significant improvements in factual accuracy and explainability. Our framework achieved up to a 40% overall answer improvement and a 50% hallucination detection rate. The ability to trace each atomic fact back to the most relevant chunks from the database provides a granular, transparent explanation of the generated responses, addressing a major gap in current medical AI applications. This work represents a crucial step towards more trustworthy and reliable clinical applications of LLMs, addressing key prerequisites for clinical application and fostering greater confidence in AI-assisted healthcare.

arxiv情報

著者 Juraj Vladika,Annika Domres,Mai Nguyen,Rebecca Moser,Jana Nano,Felix Busch,Lisa C. Adams,Keno K. Bressem,Denise Bernhardt,Stephanie E. Combs,Kai J. Borm,Florian Matthes,Jan C. Peeken
発行日 2025-05-30 17:33:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク