Confidence Under the Hood: An Investigation into the Confidence-Probability Alignment in Large Language Models

要約

大規模言語モデル(Large Language Models: LLM)の利用が広まるにつれ、生成された応答に対する自信の自己評価を理解することは、これらのモデルの出力の信頼性に不可欠であるため、ますます重要になる。我々は、トークン確率によって定量化されたLLMの内部的な確信度と、その確信度について明示的に質問されたときのモデルの応答の確信度を結びつける、確信度と確率の整合という概念を導入する。様々なデータセットと、モデルの内省を促すプロンプト技法を用いて、モデルの内部的確信度と表現された確信度の間の整合性を調査する。これらの手法には、構造化された評価尺度を用いて確信度を評価すること、プロンプトの際に回答の選択肢を含めること、モデルが自分自身として認識していない出力に対する確信度を引き出すことなどが含まれる。特に、分析したモデルの中で、OpenAIのGPT-4は、幅広いタスクにおいて、平均スピアマンの$hat{rho}$が0.42であり、最も強い信頼度と確率の整合を示した。我々の研究は、LLMの応用におけるリスク評価を促進し、モデルの信頼性の理解を深めるための継続的な取り組みに貢献する。

要約(オリジナル)

As the use of Large Language Models (LLMs) becomes more widespread, understanding their self-evaluation of confidence in generated responses becomes increasingly important as it is integral to the reliability of the output of these models. We introduce the concept of Confidence-Probability Alignment, that connects an LLM’s internal confidence, quantified by token probabilities, to the confidence conveyed in the model’s response when explicitly asked about its certainty. Using various datasets and prompting techniques that encourage model introspection, we probe the alignment between models’ internal and expressed confidence. These techniques encompass using structured evaluation scales to rate confidence, including answer options when prompting, and eliciting the model’s confidence level for outputs it does not recognize as its own. Notably, among the models analyzed, OpenAI’s GPT-4 showed the strongest confidence-probability alignment, with an average Spearman’s $\hat{\rho}$ of 0.42, across a wide range of tasks. Our work contributes to the ongoing efforts to facilitate risk assessment in the application of LLMs and to further our understanding of model trustworthiness.

arxiv情報

著者 Abhishek Kumar,Robert Morabito,Sanzhar Umbet,Jad Kabbara,Ali Emami
発行日 2024-06-03 16:41:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク