Can LLMs Express Their Uncertainty? An Empirical Evaluation of Confidence Elicitation in LLMs

要約

大規模言語モデル (LLM) が信頼性を正確に表現できるようにするタスク (信頼性の引き出しと呼ばれます) は、信頼性の高い意思決定プロセスを確保するために不可欠です。
主にモデル ロジットに依存する以前の方法は、クローズドソース LLM (商用化された LLM API など) の台頭により、LLM にはあまり適しなくなり、さらには実行不可能になりました。
このため、LLM の不確実性を推定するための \emph{非ロジットベース} アプローチの未開発領域を探索する必要性が高まっています。
したがって、この研究では、モデルの微調整や独自情報へのアクセスを必要としない信頼性を引き出すためのアプローチを調査します。
言語化ベース、一貫性ベース、およびそれらのハイブリッド手法によるベンチマーク手法の 3 つのカテゴリを紹介し、5 種類のデータセットと広く使用されている 4 つの LLM にわたってそのパフォーマンスを評価します。
これらの手法を分析すると、いくつかの重要な洞察が明らかになります。 1) LLM は、自信を言葉で表現するときに高度な自信過剰を示すことがよくあります。
2) CoT、Top-K、マルチステップ信頼度などのプロンプト戦略により、言語化された信頼度の調整が向上します。
3) 一貫性ベースの方法は、ほとんどの場合、言語化された信頼度よりも優れており、特に算術推論タスクで顕著な改善が見られます。
4) ハイブリッド手法は、ベースラインを上回る最高のパフォーマンスを一貫して提供するため、有望な最先端のアプローチとして浮上しています。
5) これらの進歩にもかかわらず、調査されたすべての方法は、専門知識を必要とするものなどの困難なタスクに引き続き苦戦しており、信頼感の引き出しを改善するための大きな余地が残されています。

要約(オリジナル)

The task of empowering large language models (LLMs) to accurately express their confidence, referred to as confidence elicitation, is essential in ensuring reliable and trustworthy decision-making processes. Previous methods, which primarily rely on model logits, have become less suitable for LLMs and even infeasible with the rise of closed-source LLMs (e.g., commercialized LLM APIs). This leads to a growing need to explore the untapped area of \emph{non-logit-based} approaches to estimate the uncertainty of LLMs. Hence, in this study, we investigate approaches for confidence elicitation that do not require model fine-tuning or access to proprietary information. We introduce three categories of methods: verbalize-based, consistency-based, and their hybrid methods for benchmarking, and evaluate their performance across five types of datasets and four widely-used LLMs. Our analysis of these methods uncovers several key insights: 1) LLMs often exhibit a high degree of overconfidence when verbalizing their confidence; 2) Prompting strategies such as CoT, Top-K and Multi-step confidences improve calibration of verbalized confidence; 3) Consistency-based methods outperform the verbalized confidences in most cases, with particularly notable improvements on the arithmetic reasoning task; 4) Hybrid methods consistently deliver the best performance over their baselines, thereby emerging as a promising state-of-the-art approach; 5) Despite these advancements, all investigated methods continue to struggle with challenging tasks, such as those requiring professional knowledge, leaving significant scope for improvement of confidence elicitation.

arxiv情報

著者 Miao Xiong,Zhiyuan Hu,Xinyang Lu,Yifei Li,Jie Fu,Junxian He,Bryan Hooi
発行日 2023-06-22 17:31:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク