Generating with Confidence: Uncertainty Quantification for Black-box Large Language Models

要約

自然言語生成 (NLG) に特化した大規模言語モデル (LLM) は、最近、さまざまなドメインにわたって有望な機能を示し始めています。
ただし、LLM によって生成された応答の信頼性を評価することは、未解決の課題のままであり、NLG の不確実性の定量化に関する研究は限られています。
さらに、既存の文献は通常、言語モデルへのホワイトボックス アクセスを前提としていますが、最新の LLM のクローズドソースの性質または計算上の制約により、これは非現実的になりつつあります。
この研究では、$\textit{black-box}$ LLM に対する NLG における不確実性の定量化を調査します。
まず、2 つの密接に関連する概念を区別します。$\textit{不確実性}$ は入力のみに依存し、$\textit{信頼性}$ はさらに生成された応答に依存します。
次に、いくつかの信頼性/不確実性指標を提案して比較し、それらを $\textit{selective NLG}$ に適用します。信頼性の低い結果は無視されるか、さらなる評価のために提供されます。
いくつかの人気のある LLM とデータセットに関する私たちの調査結果から、平均意味論的分散のシンプルかつ効果的なメトリクスが、LLM 応答の品質の信頼できる予測因子となり得ることが明らかになりました。
この研究は、LLM を採用する際の不確実性管理について実務者に貴重な洞察を提供します。
すべての実験を再現するコードは、https://github.com/zlin7/UQ-NLG で入手できます。

要約(オリジナル)

Large language models (LLMs) specializing in natural language generation (NLG) have recently started exhibiting promising capabilities across a variety of domains. However, gauging the trustworthiness of responses generated by LLMs remains an open challenge, with limited research on uncertainty quantification for NLG. Furthermore, existing literature typically assumes white-box access to language models, which is becoming unrealistic either due to the closed-source nature of the latest LLMs or due to computational constraints. In this work, we investigate uncertainty quantification in NLG for $\textit{black-box}$ LLMs. We first differentiate two closely-related notions: $\textit{uncertainty}$, which depends only on the input, and $\textit{confidence}$, which additionally depends on the generated response. We then propose and compare several confidence/uncertainty metrics, applying them to $\textit{selective NLG}$, where unreliable results could either be ignored or yielded for further assessment. Our findings on several popular LLMs and datasets reveal that a simple yet effective metric for the average semantic dispersion can be a reliable predictor of the quality of LLM responses. This study can provide valuable insights for practitioners on uncertainty management when adopting LLMs. The code to replicate all our experiments is available at https://github.com/zlin7/UQ-NLG.

arxiv情報

著者 Zhen Lin,Shubhendu Trivedi,Jimeng Sun
発行日 2023-05-30 16:31:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, stat.ML パーマリンク