Revisiting Epistemic Markers in Confidence Estimation: Can Markers Accurately Reflect Large Language Models’ Uncertainty?

要約

大規模な言語モデル(LLM)がハイステークスドメインでますます使用されているため、自信を正確に評価することが重要です。
人間は通常、数値の代わりに認識論的マーカー(例えば、「かなり自信」)を通じて自信を表します。
ただし、さまざまなマーカーに関連する不確実性を定量化することが難しいため、LLMSがこれらのマーカーを一貫して使用して固有の信頼を反映するかどうかは不明のままです。
このギャップに対処するために、最初にモデルが認識的マーカーを使用したときに観察された精度としてマーカー信頼を定義します。
オープンソースと独自のLLMSの分散型および分散排出設定の両方で、複数の質問回答データセットにわたってその安定性を評価します。
私たちの結果は、マーカーが同じ分布内でよく一般化する一方で、彼らの自信は分散除外シナリオに矛盾していることを示しています。
これらの発見は、信頼性推定のための認識的マーカーの信頼性に関する重大な懸念を提起し、マーカーベースの信頼性と実際のモデルの不確実性との間の改善されたアライメントの必要性を強調しています。
私たちのコードは、https://github.com/hkust-knowcomp/marconで入手できます。

要約(オリジナル)

As large language models (LLMs) are increasingly used in high-stakes domains, accurately assessing their confidence is crucial. Humans typically express confidence through epistemic markers (e.g., ‘fairly confident’) instead of numerical values. However, it remains unclear whether LLMs consistently use these markers to reflect their intrinsic confidence due to the difficulty of quantifying uncertainty associated with various markers. To address this gap, we first define marker confidence as the observed accuracy when a model employs an epistemic marker. We evaluate its stability across multiple question-answering datasets in both in-distribution and out-of-distribution settings for open-source and proprietary LLMs. Our results show that while markers generalize well within the same distribution, their confidence is inconsistent in out-of-distribution scenarios. These findings raise significant concerns about the reliability of epistemic markers for confidence estimation, underscoring the need for improved alignment between marker based confidence and actual model uncertainty. Our code is available at https://github.com/HKUST-KnowComp/MarCon.

arxiv情報

著者 Jiayu Liu,Qing Zong,Weiqi Wang,Yangqiu Song
発行日 2025-05-30 16:41:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク