MetaFaith: Faithful Natural Language Uncertainty Expression in LLMs

要約

LLMSの信頼性における重要な要素は信頼性の高い不確実性コミュニケーションですが、LLMは虚偽の主張を伝えるときに断定言語を使用することが多く、過度の依存と侵食された信頼につながります。
LLMSの$ \ textIT {忠実な信頼キャリブレーション} $の最初の体系的な研究を提示します。$ \ textIT {忠実に反映} $の不確実性の言語表現を使用するモデルのベンチマークモデルの能力、包括的なモデル、データセット、および促進戦略を介して。
私たちの結果は、LLMSがこのタスクで大部分が失敗し、既存の介入が不十分であることを示しています。標準的な促進アプローチはわずかな利益のみを提供し、既存の事実ベースのキャリブレーション手法は忠実なキャリブレーションを害することさえあります。
このクリティカルギャップに対処するために、人間のメタ認知に触発された新しい迅速ベースのキャリブレーションアプローチであるMetafaithを紹介します。
Metafaithは、多様なモデルとタスクドメイン全体で忠実に忠実なキャリブレーションを改善し、忠実さを最大61%改善し、人間によって判断された元の世代にわたって83%の勝利率を達成できることを示しています。

要約(オリジナル)

A critical component in the trustworthiness of LLMs is reliable uncertainty communication, yet LLMs often use assertive language when conveying false claims, leading to over-reliance and eroded trust. We present the first systematic study of $\textit{faithful confidence calibration}$ of LLMs, benchmarking models’ ability to use linguistic expressions of uncertainty that $\textit{faithfully reflect}$ their intrinsic uncertainty, across a comprehensive array of models, datasets, and prompting strategies. Our results demonstrate that LLMs largely fail at this task, and that existing interventions are insufficient: standard prompt approaches provide only marginal gains, and existing, factuality-based calibration techniques can even harm faithful calibration. To address this critical gap, we introduce MetaFaith, a novel prompt-based calibration approach inspired by human metacognition. We show that MetaFaith robustly improves faithful calibration across diverse models and task domains, enabling up to 61% improvement in faithfulness and achieving an 83% win rate over original generations as judged by humans.

arxiv情報

著者 Gabrielle Kaili-May Liu,Gal Yona,Avi Caciularu,Idan Szpektor,Tim G. J. Rudner,Arman Cohan
発行日 2025-05-30 17:54:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク