Uncertainty Estimation of Large Language Models in Medical Question Answering

要約

大規模言語モデル (LLM) は、医療分野での自然言語生成に有望ですが、事実に誤りのある情報を幻覚させる危険性があります。
医療質問応答に LLM を導入するには、幻覚を検出するための信頼できる不確実性推定 (UE) 方法が必要です。
この研究では、医療質問応答データセット上で、さまざまなモデル サイズを使用して一般的な UE 手法のベンチマークを行います。
私たちの結果は、現在のアプローチがこの領域では一般にパフォーマンスが低いことを示しており、医療アプリケーションにおける UE の課題を浮き彫りにしています。
また、モデルが大きいほど良い結果が得られる傾向があることも観察されており、モデルのサイズと UE の信頼性の間に相関関係があることが示唆されます。
これらの課題に対処するために、私たちは確率フリーの不確実性推定アプローチである 2 段階検証を提案します。
まず、LLM は最初の回答とともに段階的な説明を生成し、続いて説明内の事実の主張を確認するための確認質問を作成します。
次に、モデルはこれらの質問に 2 回答えます。最初は独立して答え、次に説明を参照します。
2 つの回答セット間の不一致により、元の回答の不確実性が測定されます。
私たちは、Llama 2 チャット モデルを使用して 3 つの生物医学的質問応答データセットに対するアプローチを評価し、ベンチマークされたベースライン手法と比較します。
結果は、当社の 2 フェーズ検証手法が、さまざまなデータセットおよびモデル サイズにわたって最高の全体的な精度と安定性を達成し、モデル サイズの増加に応じてそのパフォーマンスが向上することを示しています。

要約(オリジナル)

Large Language Models (LLMs) show promise for natural language generation in healthcare, but risk hallucinating factually incorrect information. Deploying LLMs for medical question answering necessitates reliable uncertainty estimation (UE) methods to detect hallucinations. In this work, we benchmark popular UE methods with different model sizes on medical question-answering datasets. Our results show that current approaches generally perform poorly in this domain, highlighting the challenge of UE for medical applications. We also observe that larger models tend to yield better results, suggesting a correlation between model size and the reliability of UE. To address these challenges, we propose Two-phase Verification, a probability-free Uncertainty Estimation approach. First, an LLM generates a step-by-step explanation alongside its initial answer, followed by formulating verification questions to check the factual claims in the explanation. The model then answers these questions twice: first independently, and then referencing the explanation. Inconsistencies between the two sets of answers measure the uncertainty in the original response. We evaluate our approach on three biomedical question-answering datasets using Llama 2 Chat models and compare it against the benchmarked baseline methods. The results show that our Two-phase Verification method achieves the best overall accuracy and stability across various datasets and model sizes, and its performance scales as the model size increases.

arxiv情報

著者 Jiaxin Wu,Yizhou Yu,Hong-Yu Zhou
発行日 2024-07-11 16:51:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク