要約
この研究では、300の胃腸科のボードスタイルの質問を使用して、いくつかの大規模な言語モデル(GPT、Claude、Llama、Phi、Mistral、Gemini、Gemma、Qwen)にわたって自己報告された反応の確実性を評価しました。
最高のパフォーマンスモデル(GPT-O1プレビュー、GPT-4O、およびClaude-3.5-Sonnet)は、0.15-0.2のBrierスコアと0.6のAurocを達成しました。
新しいモデルはパフォーマンスの向上を実証しましたが、すべてが自信過剰に一貫した傾向を示しました。
不確実性の推定は、ヘルスケアでのLLMの安全な使用に大きな課題を提示します。
キーワード:大規模な言語モデル。
自信の誘発;
人工知能;
胃腸科;
不確実性の定量化
要約(オリジナル)
This study evaluated self-reported response certainty across several large language models (GPT, Claude, Llama, Phi, Mistral, Gemini, Gemma, and Qwen) using 300 gastroenterology board-style questions. The highest-performing models (GPT-o1 preview, GPT-4o, and Claude-3.5-Sonnet) achieved Brier scores of 0.15-0.2 and AUROC of 0.6. Although newer models demonstrated improved performance, all exhibited a consistent tendency towards overconfidence. Uncertainty estimation presents a significant challenge to the safe use of LLMs in healthcare. Keywords: Large Language Models; Confidence Elicitation; Artificial Intelligence; Gastroenterology; Uncertainty Quantification
arxiv情報
著者 | Nariman Naderi,Seyed Amir Ahmad Safavi-Naini,Thomas Savage,Zahra Atf,Peter Lewis,Girish Nadkarni,Ali Soroush |
発行日 | 2025-03-24 11:16:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google