Confidence Under the Hood: An Investigation into the Confidence-Probability Alignment in Large Language Models

要約

大規模言語モデル (LLM) の使用がさらに普及するにつれて、生成された応答の信頼性の自己評価を理解することは、これらのモデルの出力の信頼性に不可欠であるため、ますます重要になります。
私たちは、トークン確率によって定量化された LLM の内部信頼度を、確実性について明示的に質問されたときのモデルの応答で伝えられる信頼度に結び付ける、信頼度-確率アラインメントの概念を導入します。
さまざまなデータセットとモデルの内省を促すプロンプト手法を使用して、モデルの内部信頼と表現された信頼の間の整合性を調査します。
これらの手法には、構造化された評価スケールを使用して信頼度を評価すること(プロンプト時の回答オプションを含む)や、モデル自身が認識していない出力に対するモデルの信頼レベルを導き出すことが含まれます。
注目すべき点は、分析されたモデルの中で、OpenAI の GPT-4 が最も強力な信頼確率の一致を示し、幅広いタスクにわたって平均 Spearman の $\hat{\rho}$ が 0.42 でした。
私たちの取り組みは、LLM の適用におけるリスク評価を促進し、モデルの信頼性についての理解を深めるための継続的な取り組みに貢献しています。

要約(オリジナル)

As the use of Large Language Models (LLMs) becomes more widespread, understanding their self-evaluation of confidence in generated responses becomes increasingly important as it is integral to the reliability of the output of these models. We introduce the concept of Confidence-Probability Alignment, that connects an LLM’s internal confidence, quantified by token probabilities, to the confidence conveyed in the model’s response when explicitly asked about its certainty. Using various datasets and prompting techniques that encourage model introspection, we probe the alignment between models’ internal and expressed confidence. These techniques encompass using structured evaluation scales to rate confidence, including answer options when prompting, and eliciting the model’s confidence level for outputs it does not recognize as its own. Notably, among the models analyzed, OpenAI’s GPT-4 showed the strongest confidence-probability alignment, with an average Spearman’s $\hat{\rho}$ of 0.42, across a wide range of tasks. Our work contributes to the ongoing efforts to facilitate risk assessment in the application of LLMs and to further our understanding of model trustworthiness.

arxiv情報

著者 Abhishek Kumar,Robert Morabito,Sanzhar Umbet,Jad Kabbara,Ali Emami
発行日 2024-05-29 13:05:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク