Methods to Estimate Large Language Model Confidence

要約

大規模な言語モデルでは不確実性を伝えるのが難しく、LLM を複雑な医療タスクに適用する際の大きな障害となります。
この研究では、困難な臨床的ビネットに対する診断を提案する際の LLM の信頼度を測定する方法を評価します。
GPT4 は、思考連鎖と自己一貫性のプロンプトを使用して、一連の難しいケースの質問をされました。
モデルの信頼性を評価するために複数の方法が調査され、モデルの観察精度を予測する能力が評価されました。
評価された方法は、本質的信頼度、SC 合意頻度、および CoT 応答長でした。
SC 一致周波数は観察された精度と相関しており、固有の信頼性および CoT 長の分析と比較して、受信機動作特性曲線の下の面積がより大きくなりました。
SC 合意は、特に医療診断において、モデルの信頼性を示す最も有用な代用手段です。
モデルの本質的な信頼性と CoT 応答長は、正解と不正解を区別する能力が弱いため、信頼性が高く解釈可能なモデルの信頼性マーカーとはなりません。
私たちは、GPT4 自体の診断精度を評価する能力には限界があると結論付けています。
SC 一致頻度は、GPT4 の信頼性を測定する最も有用な方法です。

要約(オリジナル)

Large Language Models have difficulty communicating uncertainty, which is a significant obstacle to applying LLMs to complex medical tasks. This study evaluates methods to measure LLM confidence when suggesting a diagnosis for challenging clinical vignettes. GPT4 was asked a series of challenging case questions using Chain of Thought and Self Consistency prompting. Multiple methods were investigated to assess model confidence and evaluated on their ability to predict the models observed accuracy. The methods evaluated were Intrinsic Confidence, SC Agreement Frequency and CoT Response Length. SC Agreement Frequency correlated with observed accuracy, yielding a higher Area under the Receiver Operating Characteristic Curve compared to Intrinsic Confidence and CoT Length analysis. SC agreement is the most useful proxy for model confidence, especially for medical diagnosis. Model Intrinsic Confidence and CoT Response Length exhibit a weaker ability to differentiate between correct and incorrect answers, preventing them from being reliable and interpretable markers for model confidence. We conclude GPT4 has a limited ability to assess its own diagnostic accuracy. SC Agreement Frequency is the most useful method to measure GPT4 confidence.

arxiv情報

著者 Maia Kotelanski,Robert Gallo,Ashwin Nayak,Thomas Savage
発行日 2023-12-08 07:04:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク