To Believe or Not to Believe Your LLM

要約

私たちは、クエリに対する応答の不確実性がいつ大きいかを特定することを目的として、大規模言語モデル (LLM) における不確実性の定量化を調査します。
私たちは、認識論的不確実性と偶然性の不確実性の両方を同時に考慮します。前者は、根拠となる真実 (事実や言語など) に関する知識の欠如に由来し、後者は、還元不可能なランダム性 (複数の可能な答えなど) に由来します。
特に、認識論的な不確実性のみが大きい場合、つまりモデルの出力の信頼性が低い場合を確実に検出できる情報理論的メトリクスを導出します。
この条件は、前の応答に基づいた特別な反復プロンプトによって取得されたモデルの出力のみに基づいて計算できます。
たとえば、このような定量化により、単一回答と複数回答の両方で幻覚(認識論的不確実性が高い場合)を検出することができます。
これは、複数回答の場合の幻覚を検出できない、多くの標準的な不確実性定量化戦略 (応答の対数尤度の閾値処理など) とは対照的です。
私たちは、処方の利点を実証する一連の実験を実施します。
さらに、私たちの調査は、LLM によって特定の出力に割り当てられた確率が反復プロンプトによってどのように増幅できるかについていくらか明らかにし、これは独立した興味深いものになる可能性があります。

要約(オリジナル)

We explore uncertainty quantification in large language models (LLMs), with the goal to identify when uncertainty in responses given a query is large. We simultaneously consider both epistemic and aleatoric uncertainties, where the former comes from the lack of knowledge about the ground truth (such as about facts or the language), and the latter comes from irreducible randomness (such as multiple possible answers). In particular, we derive an information-theoretic metric that allows to reliably detect when only epistemic uncertainty is large, in which case the output of the model is unreliable. This condition can be computed based solely on the output of the model obtained simply by some special iterative prompting based on the previous responses. Such quantification, for instance, allows to detect hallucinations (cases when epistemic uncertainty is high) in both single- and multi-answer responses. This is in contrast to many standard uncertainty quantification strategies (such as thresholding the log-likelihood of a response) where hallucinations in the multi-answer case cannot be detected. We conduct a series of experiments which demonstrate the advantage of our formulation. Further, our investigations shed some light on how the probabilities assigned to a given output by an LLM can be amplified by iterative prompting, which might be of independent interest.

arxiv情報

著者 Yasin Abbasi Yadkori,Ilja Kuzborskij,András György,Csaba Szepesvári
発行日 2024-07-17 15:55:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク