Word-Sequence Entropy: Towards Uncertainty Estimation in Free-Form Medical Question Answering Applications and Beyond

要約

不確実性の推定は、特に医療工学の分野において、セーフティ クリティカルな人間と人工知能 (AI) のインタラクション システムの信頼性にとって極めて重要です。
しかし、自由形式の回答に対する堅牢かつ一般的な不確実性の尺度は、オープンエンドの医療質問応答 (QA) タスクでは十分に確立されていません。生成不等式により、不確実性のために生成されたセット内に無関係な単語やシーケンスが大量に導入されます。
定量化(UQ)、バイアスにつながる可能性があります。
この論文では、意味の関連性を考慮して、単語とシーケンスの両方のレベルで不確実性を調整する手法である単語シーケンス エントロピー (WSE) を紹介します。
WSE は、不確実性の定量化 (UQ) 中に LLM の信頼性とより密接に一致する方法で不確実性を定量化します。
7 つの一般的な大規模言語モデル (LLM) を利用して、5 つの自由形式の医療 QA データセット上の 6 つのベースライン手法と WSE を比較します。
実験結果は、WSE が正確性評価の 2 つの標準基準の下で UQ において優れたパフォーマンスを示すことを示しています。
さらに、実際の医療 QA アプリケーションに関しては、WSE によって最終回答として特定された不確実性の低い応答を採用することにより、LLM のパフォーマンスが大幅に向上します(例: COVID-QA データセットのモデル精度が 6.36% 向上)。
追加のタスク固有の微調整やアーキテクチャの変更は必要ありません。

要約(オリジナル)

Uncertainty estimation is crucial for the reliability of safety-critical human and artificial intelligence (AI) interaction systems, particularly in the domain of healthcare engineering. However, a robust and general uncertainty measure for free-form answers has not been well-established in open-ended medical question-answering (QA) tasks, where generative inequality introduces a large number of irrelevant words and sequences within the generated set for uncertainty quantification (UQ), which can lead to biases. This paper introduces Word-Sequence Entropy (WSE), a method that calibrates uncertainty at both the word and sequence levels, considering semantic relevance. WSE quantifies uncertainty in a way that is more closely aligned with the reliability of LLMs during uncertainty quantification (UQ). We compare WSE with six baseline methods on five free-form medical QA datasets, utilizing seven popular large language models (LLMs). Experimental results demonstrate that WSE exhibits superior performance in UQ under two standard criteria for correctness evaluation. Additionally, in terms of real-world medical QA applications, the performance of LLMs is significantly enhanced (e.g., a 6.36% improvement in model accuracy on the COVID-QA dataset) by employing responses with lower uncertainty that are identified by WSE as final answers, without any additional task-specific fine-tuning or architectural modifications.

arxiv情報

著者 Zhiyuan Wang,Jinhao Duan,Chenxi Yuan,Qingyu Chen,Tianlong Chen,Yue Zhang,Ren Wang,Xiaoshuang Shi,Kaidi Xu
発行日 2024-11-18 09:19:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク