Cycles of Thought: Measuring LLM Confidence through Stable Explanations

要約

多くの高リスク機械学習アプリケーションでは、予測が不確実である場合をモデルが示すことが不可欠です。
大規模言語モデル (LLM) は、さまざまなベンチマークで人間レベルの精度に達し、さらにはそれを超える可能性がありますが、誤った応答に対する過信は依然として十分に文書化された失敗モードです。
ML 不確実性を定量化するための従来の方法は、実装の計算コストと多くのモデルのクローズドソースの性質により、LLM に直接適応することが難しい場合があります。
最近、さまざまなブラックボックス手法が提案されていますが、これらは多くの場合、自己言語化された自信などのヒューリスティックに依存しています。
代わりに、生成された答えの説明の分布に関する LLM の不確実性を測定するためのフレームワークを提案します。
説明を利用すること自体は新しいアイデアではありませんが、考えられる各モデルと説明のペアをテスト時の分類子として解釈することで、これらの分類子の中で最も可能性の高い分類子に対する事後回答分布を計算できます。
説明含意を分類子の尤度として使用するこのフレームワークの特定のインスタンスが、5 つの異なるデータセットにわたってベースラインよりも信頼スコア メトリクス (特に AURC と AUROC) をどのように改善するかを示します。
これらの結果は、私たちのフレームワークが LLM の不確実性を定量化するための十分に原理的かつ効果的な方法であることを示していると考えています。

要約(オリジナル)

In many high-risk machine learning applications it is essential for a model to indicate when it is uncertain about a prediction. While large language models (LLMs) can reach and even surpass human-level accuracy on a variety of benchmarks, their overconfidence in incorrect responses is still a well-documented failure mode. Traditional methods for ML uncertainty quantification can be difficult to directly adapt to LLMs due to the computational cost of implementation and closed-source nature of many models. A variety of black-box methods have recently been proposed, but these often rely on heuristics such as self-verbalized confidence. We instead propose a framework for measuring an LLM’s uncertainty with respect to the distribution of generated explanations for an answer. While utilizing explanations is not a new idea in and of itself, by interpreting each possible model+explanation pair as a test-time classifier we can calculate a posterior answer distribution over the most likely of these classifiers. We demonstrate how a specific instance of this framework using explanation entailment as our classifier likelihood improves confidence score metrics (in particular AURC and AUROC) over baselines across five different datasets. We believe these results indicate that our framework is both a well-principled and effective way of quantifying uncertainty in LLMs.

arxiv情報

著者 Evan Becker,Stefano Soatto
発行日 2024-06-05 16:35:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク