要約
自然言語生成 (NLG) に特化した大規模言語モデル (LLM) は、最近、さまざまなドメインにわたって有望な機能を示し始めています。
ただし、LLM によって生成された応答の信頼性を評価することは未解決の課題であり、NLG の不確実性定量化 (UQ) に関する研究は限られています。
さらに、既存の文献は通常、言語モデルへのホワイトボックス アクセスを前提としていますが、最新の LLM のクローズド ソースの性質や計算上の制約により、これは非現実的になりつつあります。
この研究では、ブラックボックス LLM の NLG における UQ を調査します。
まず、不確実性と信頼性を区別します。前者は固定入力に対する潜在的な予測の「分散」を指し、後者は特定の予測/生成の信頼度を指します。
次に、いくつかの信頼性/不確実性メトリクスを提案および比較し、それらを選択的 NLG に適用します。信頼性の低い結果は無視されるか、さらなる評価のために生成されます。
実験は、質問応答データセットに対していくつかの一般的な LLM を使用して実行されました (評価目的)。
結果は、意味的分散の単純な指標が LLM 応答の品質の信頼できる予測因子となり得ることを明らかにし、LLM を採用する際の不確実性管理に関する実務者に貴重な洞察を提供します。
実験を再現するコードは https://github.com/zlin7/UQ-NLG で入手できます。
要約(オリジナル)
Large language models (LLMs) specializing in natural language generation (NLG) have recently started exhibiting promising capabilities across a variety of domains. However, gauging the trustworthiness of responses generated by LLMs remains an open challenge, with limited research on uncertainty quantification (UQ) for NLG. Furthermore, existing literature typically assumes white-box access to language models, which is becoming unrealistic either due to the closed-source nature of the latest LLMs or computational constraints. In this work, we investigate UQ in NLG for black-box LLMs. We first differentiate uncertainty vs confidence: the former refers to the ‘dispersion’ of the potential predictions for a fixed input, and the latter refers to the confidence on a particular prediction/generation. We then propose and compare several confidence/uncertainty metrics, applying them to selective NLG where unreliable results could either be ignored or yielded for further assessment. Experiments were carried out with several popular LLMs on question-answering datasets (for evaluation purposes). Results reveal that a simple metric for the semantic dispersion can be a reliable predictor of the quality of LLM responses, providing valuable insights for practitioners on uncertainty management when adopting LLMs. The code to replicate our experiments is available at https://github.com/zlin7/UQ-NLG.
arxiv情報
| 著者 | Zhen Lin,Shubhendu Trivedi,Jimeng Sun |
| 発行日 | 2023-10-09 16:30:08+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google