Large Language Model Confidence Estimation via Black-Box Access

要約

モデルの応答に対する不確実性または自信を推定することは、応答だけでなく、モデル全体に​​おいても信頼を評価する上で重要です。
この論文では、単純なブラックボックスまたはクエリアクセスを使用して、大規模な言語モデル(LLMS)の応答の信頼性を推定する問題を調査します。
シンプルで拡張可能なフレームワークを提案します。ここでは、これらの機能について斬新な機能を設計し、(解釈可能な)モデル(すなわちロジスティック回帰)をトレーニングして、信頼性を推定します。
私たちの単純なフレームワークは、4つのベンチマークq \&AタスクでのFlan-UL2、Llama-13b、Mistral-7b、およびGPT-4の信頼を推定するのに効果的であることを経験的に実証します。
それによるタスクは、場合によっては10ドルを超える\%$(Aurocで)を超えてベースラインを上回ります。
さらに、私たちの解釈可能なアプローチは、信頼性を予測する機能への洞察を提供し、1つのLLM用に構築された自信モデルが特定のデータセットで他の人にゼロショットを一般化するという興味深く有用な発見につながります。

要約(オリジナル)

Estimating uncertainty or confidence in the responses of a model can be significant in evaluating trust not only in the responses, but also in the model as a whole. In this paper, we explore the problem of estimating confidence for responses of large language models (LLMs) with simply black-box or query access to them. We propose a simple and extensible framework where, we engineer novel features and train a (interpretable) model (viz. logistic regression) on these features to estimate the confidence. We empirically demonstrate that our simple framework is effective in estimating confidence of Flan-ul2, Llama-13b, Mistral-7b and GPT-4 on four benchmark Q\&A tasks as well as of Pegasus-large and BART-large on two benchmark summarization tasks with it surpassing baselines by even over $10\%$ (on AUROC) in some cases. Additionally, our interpretable approach provides insight into features that are predictive of confidence, leading to the interesting and useful discovery that our confidence models built for one LLM generalize zero-shot across others on a given dataset.

arxiv情報

著者 Tejaswini Pedapati,Amit Dhurandhar,Soumya Ghosh,Soham Dan,Prasanna Sattigeri
発行日 2025-02-20 18:42:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク