Diversity Measures: Domain-Independent Proxies for Failure in Language Model Queries

要約

大規模な言語モデルにおけるエラー予測は、多くの場合、ドメイン固有の情報に依存します。
この論文では、特定のプロンプトに対する応答の多様性に基づいて、つまり基礎となるアプリケーションから独立した、大規模な言語モデルの応答におけるエラーを定量化するための尺度を示します。
エントロピー、ジニ不純物、重心距離に基づく 3 つの尺度をどのように使用できるかを説明します。
複数のデータセットと温度設定に対して一連の実験を実行し、これらの測定値が故障の確率と強い相関があることを実証します。
さらに、これらの対策を少数ショットプロンプト、思考連鎖推論、およびエラー検出にどのように適用できるかを実証する実験結果を示します。

要約(オリジナル)

Error prediction in large language models often relies on domain-specific information. In this paper, we present measures for quantification of error in the response of a large language model based on the diversity of responses to a given prompt – hence independent of the underlying application. We describe how three such measures – based on entropy, Gini impurity, and centroid distance – can be employed. We perform a suite of experiments on multiple datasets and temperature settings to demonstrate that these measures strongly correlate with the probability of failure. Additionally, we present empirical results demonstrating how these measures can be applied to few-shot prompting, chain-of-thought reasoning, and error detection.

arxiv情報

著者 Noel Ngu,Nathaniel Lee,Paulo Shakarian
発行日 2023-08-22 04:49:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク