Different Questions, Different Models: Fine-Grained Evaluation of Uncertainty and Calibration in Clinical QA with LLMs

要約

正確で校正された不確実性の推定値は、臨床的意思決定サポートなどのハイステークスドメインに大規模な言語モデル(LLM)を展開するために不可欠です。
2つのデータセット、11の医療専門分野、6つの質問タイプにわたって、10のオープンソースLLM(汎用、生物医学、および推論モデル)をカバーする、臨床的複数選択質問応答の不確実性推定方法の細粒度評価を提示します。
標準的な単一生成とサンプリングベースの方法を比較し、推論トレースの行動信号に基づいて単純なシングルパス推定器を探索するケーススタディを提示します。
これらの軽量の方法は、セマンティックエントロピーのパフォーマンスに近づいていますが、1世代のみが必要です。
私たちの結果は、専門分野と質問の種類にわたって実質的な変動を明らかにし、質問の性質とモデル固有の強さの両方に基づいてモデルを選択することの重要性を強調しています。

要約(オリジナル)

Accurate and well-calibrated uncertainty estimates are essential for deploying large language models (LLMs) in high-stakes domains such as clinical decision support. We present a fine-grained evaluation of uncertainty estimation methods for clinical multiple-choice question answering, covering ten open-source LLMs (general-purpose, biomedical, and reasoning models) across two datasets, eleven medical specialties, and six question types. We compare standard single-generation and sampling-based methods, and present a case study exploring simple, single-pass estimators based on behavioral signals in reasoning traces. These lightweight methods approach the performance of Semantic Entropy while requiring only one generation. Our results reveal substantial variation across specialties and question types, underscoring the importance of selecting models based on both the nature of the question and model-specific strengths.

arxiv情報

著者 Alberto Testoni,Iacer Calixto
発行日 2025-06-12 14:48:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク