MAQA: Evaluating Uncertainty Quantification in LLMs Regarding Data Uncertainty

要約

大規模な言語モデル(LLM)の大規模な進歩にもかかわらず、彼らは依然としてもっともらしいが誤った反応を生み出すことに苦しんでいます。
LLMSの信頼性を向上させるために、最近の研究では、不確実性の定量化に焦点を当てて、応答が正しいかどうかを予測しています。
ただし、ほとんどの不確実性の定量化方法は、データの不確実性を削除する単一標識の質問で評価されています。ユーザークエリに存在する既約ランダム性は、複数の可能な回答のような要因から生じる可能性があります。
この制限により、実際の設定では不確実性の定量化の結果が信頼できない可能性があります。
この論文では、データの不確実性の存在下での以前の不確実性定量化方法を調査します。
私たちの貢献は2つあります。1)データセット、MAQAに回答する新しいマルチアンスワーの質問を提案し、世界の知識、数学的推論、およびデータの不確実性に関する不確実性の定量化を評価するためのコモンセンスな推論タスクで構成され、2)多様な白とブラックボックスLLMSの5つの不確実性定量化方法を評価します。
私たちの調査結果は、以前の方法は単一の設定と比較して比較的闘っていることを示していますが、これはタスクによって異なります。
さらに、データの不確実性が存在する場合でも、エントロピーおよび一貫性ベースの方法は、モデルの不確実性を効果的に推定することを観察します。
これらの観察結果は、より現実的な設定での不確実性の定量化に関する将来の作業を導くと考えています。

要約(オリジナル)

Despite the massive advancements in large language models (LLMs), they still suffer from producing plausible but incorrect responses. To improve the reliability of LLMs, recent research has focused on uncertainty quantification to predict whether a response is correct or not. However, most uncertainty quantification methods have been evaluated on single-labeled questions, which removes data uncertainty: the irreducible randomness often present in user queries, which can arise from factors like multiple possible answers. This limitation may cause uncertainty quantification results to be unreliable in practical settings. In this paper, we investigate previous uncertainty quantification methods under the presence of data uncertainty. Our contributions are two-fold: 1) proposing a new Multi-Answer Question Answering dataset, MAQA, consisting of world knowledge, mathematical reasoning, and commonsense reasoning tasks to evaluate uncertainty quantification regarding data uncertainty, and 2) assessing 5 uncertainty quantification methods of diverse white- and black-box LLMs. Our findings show that previous methods relatively struggle compared to single-answer settings, though this varies depending on the task. Moreover, we observe that entropy- and consistency-based methods effectively estimate model uncertainty, even in the presence of data uncertainty. We believe these observations will guide future work on uncertainty quantification in more realistic settings.

arxiv情報

著者 Yongjin Yang,Haneul Yoo,Hwaran Lee
発行日 2025-03-31 13:03:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク