要約
大規模な言語モデル(LLM)は、実際の質問回答(QA)アプリケーションでますます展開されています。
ただし、LLMは幻覚と非事実情報を生成することが証明されており、ハイステークスの医療タスクでの信頼性を損ないます。
コンフォーマル予測(CP)は、モデルに依存して分布できないことがよく知られており、分類タスクで統計的に厳密な予測セットを作成します。
この作業では、内部モデル情報へのアクセスがないと仮定して、非信頼性スコアと自己整合性理論に基づいた正しいオプションの頻度スコアと相関することにより、CPフレームワークを初めて医療複数選択質問(MCQA)タスクに適応させます。
適応されたCPフレームワークは(MIS)カバレッジ率のみを制御できることを考慮して、リスク制御フレームワークを採用しています。リスク制御フレームワークは、単調に減少する損失関数を考案することによりタスク固有のメトリックを管理できます。
4つの「オフシェルフ」LLMSを使用して、3つの一般的なMCQAデータセットでフレームワークを評価します。
経験的結果は、テストセットでユーザー指定の平均(または限界)エラー率を達成することを示しています。
さらに、リスクレベルが増加すると、テストセットの平均予測セットサイズ(APSS)が減少し、LLMSの不確実性の有望な評価メトリックを締めくくることがわかります。
要約(オリジナル)
Large language models (LLMs) are increasingly deployed in real-world question-answering (QA) applications. However, LLMs have been proven to generate hallucinations and nonfactual information, undermining their trustworthiness in high-stakes medical tasks. Conformal prediction (CP) is well-known to be model-agnostic and distribution-free, which creates statistically rigorous prediction sets in classification tasks. In this work, we for the first time adapt the CP framework to medical multiple-choice question-answering (MCQA) tasks, by correlating the nonconformity score with the frequency score of correct options grounded in self-consistency theory, assuming no access to internal model information. Considering that the adapted CP framework can only control the (mis)coverage rate, we employ a risk control framework, which can manage task-specific metrics by devising a monotonically decreasing loss function. We evaluate our framework on 3 popular medical MCQA datasets utilizing 4 “off-the-shelf” LLMs. Empirical results demonstrate that we achieve user-specified average (or marginal) error rates on the test set. Furthermore, we observe that the average prediction set size (APSS) on the test set decreases as the risk level increases, which concludes a promising evaluation metric for the uncertainty of LLMs.
arxiv情報
著者 | Yusong Ke |
発行日 | 2025-03-07 15:22:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google