Self-Reported Confidence of Large Language Models in Gastroenterology: Analysis of Commercial, Open-Source, and Quantized Models

要約

この研究では、300の胃腸科のボードスタイルの質問を使用して、いくつかの大規模な言語モデル(GPT、Claude、Llama、Phi、Mistral、Gemini、Gemma、Qwen)にわたって自己報告された反応の確実性を評価しました。
最高のパフォーマンスモデル(GPT-O1プレビュー、GPT-4O、およびClaude-3.5-Sonnet)は、0.15-0.2のBrierスコアと0.6のAurocを達成しました。
新しいモデルはパフォーマンスの向上を実証しましたが、すべてが自信過剰に一貫した傾向を示しました。
不確実性の推定は、ヘルスケアでのLLMの安全な使用に大きな課題を提示します。
キーワード:大規模な言語モデル。
自信の誘発;
人工知能;
胃腸科;
不確実性の定量化

要約(オリジナル)

This study evaluated self-reported response certainty across several large language models (GPT, Claude, Llama, Phi, Mistral, Gemini, Gemma, and Qwen) using 300 gastroenterology board-style questions. The highest-performing models (GPT-o1 preview, GPT-4o, and Claude-3.5-Sonnet) achieved Brier scores of 0.15-0.2 and AUROC of 0.6. Although newer models demonstrated improved performance, all exhibited a consistent tendency towards overconfidence. Uncertainty estimation presents a significant challenge to the safe use of LLMs in healthcare. Keywords: Large Language Models; Confidence Elicitation; Artificial Intelligence; Gastroenterology; Uncertainty Quantification

arxiv情報

著者 Nariman Naderi,Seyed Amir Ahmad Safavi-Naini,Thomas Savage,Zahra Atf,Peter Lewis,Girish Nadkarni,Ali Soroush
発行日 2025-03-24 11:16:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC, cs.LG パーマリンク