MAQA: Evaluating Uncertainty Quantification in LLMs Regarding Data Uncertainty

要約

大規模言語モデル (LLM) はさまざまなタスクを実行できますが、依然として、もっともらしいが不正確な応答を生成するという問題があります。
LLM の信頼性を向上させるために、最近の研究は、応答が正しいかどうかを予測するための不確実性の定量化に焦点を当てています。
しかし、不確実性の定量化手法のほとんどは、単一の明確な回答を必要とする質問に対して評価されており、還元不可能なランダム性から生じるデータの不確実性の存在は無視されています。
代わりに、これらの方法では、知識の欠如から生じるモデルの不確実性のみが考慮されます。
この論文では、データの不確実性の存在下での以前の不確実性の定量化手法を調査します。
私たちの貢献は 2 つあります。1) データの不確実性に関する不確実性の定量化を評価するための、世界の知識、数学的推論、および常識推論タスクで構成される新しい多回答質問応答データセット MAQA を提案すること、および 2) データの不確実性に関する 5 つの不確実性定量化手法を評価することです。
多様なホワイト ボックスおよびブラック ボックス LLM。
私たちの調査結果は、エントロピーおよび一貫性ベースの手法はデータの不確実性の下でもモデルの不確実性を適切に推定するのに対し、ホワイトボックスおよびブラックボックス LLM の他の手法はタスクによっては困難を伴うことを示しています。
さらに、ホワイトボックス LLM 用に設計されたメソッドは、単純な知識クエリと比較して、推論タスクにおける過信に悩まされます。
私たちは、私たちの観察が、現実的な環境における不確実性の定量化に関する将来の研究への道を開くと信じています。

要約(オリジナル)

Although large language models (LLMs) are capable of performing various tasks, they still suffer from producing plausible but incorrect responses. To improve the reliability of LLMs, recent research has focused on uncertainty quantification to predict whether a response is correct or not. However, most uncertainty quantification methods have been evaluated on questions requiring a single clear answer, ignoring the existence of data uncertainty that arises from irreducible randomness. Instead, these methods only consider model uncertainty, which arises from a lack of knowledge. In this paper, we investigate previous uncertainty quantification methods under the presence of data uncertainty. Our contributions are two-fold: 1) proposing a new Multi-Answer Question Answering dataset, MAQA, consisting of world knowledge, mathematical reasoning, and commonsense reasoning tasks to evaluate uncertainty quantification regarding data uncertainty, and 2) assessing 5 uncertainty quantification methods of diverse white- and black-box LLMs. Our findings show that entropy and consistency-based methods estimate the model uncertainty well even under data uncertainty, while other methods for white- and black-box LLMs struggle depending on the tasks. Additionally, methods designed for white-box LLMs suffer from overconfidence in reasoning tasks compared to simple knowledge queries. We believe our observations will pave the way for future work on uncertainty quantification in realistic setting.

arxiv情報

著者 Yongjin Yang,Haneul Yoo,Hwaran Lee
発行日 2024-08-13 11:17:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク