DiverseAgentEntropy: Quantifying Black-Box LLM Uncertainty through Diverse Perspectives and Multi-Agent Interaction

要約

大規模言語モデル (LLM) の事実に基づくパラメトリック知識の不確実性を定量化することは、特にブラックボックス設定では大きな課題となります。
元のクエリに対する応答の自己一貫性を評価することでモデルの不確実性を評価する既存の方法では、常に真の不確実性を把握できるとは限りません。
モデルは、元のクエリに対しては一貫して間違った回答を返しても、同じクエリに関するさまざまな視点からのさまざまな質問には正しく応答する場合があり、その逆も同様です。
この論文では、モデルが確実である場合、モデルは、モデルに関するさまざまな質問の集合全体にわたって元のクエリに対する答えを一貫して思い出すはずであるという仮定の下で、マルチエージェントインタラクションを使用してモデルの不確実性を評価するための新しい方法 DiverseAgentEntropy を提案します。
同じ元のクエリ。
さらに、不確実性が高い場合には回答を差し控える棄権政策も導入しています。
私たちの方法は、モデルの信頼性をより正確に予測し、幻覚をさらに検出し、他の自己無撞着ベースの方法よりも優れています。
さらに、既存のモデルでは、正しい答えがわかっている場合でも、さまざまな質問の下で同じクエリに対する正しい答えを一貫して取得できないことがよくあることを示しています。

要約(オリジナル)

Quantifying the uncertainty in the factual parametric knowledge of Large Language Models (LLMs), especially in a black-box setting, poses a significant challenge. Existing methods, which gauge a model’s uncertainty through evaluating self-consistency in responses to the original query, do not always capture true uncertainty. Models might respond consistently to the origin query with a wrong answer, yet respond correctly to varied questions from different perspectives about the same query, and vice versa. In this paper, we propose a novel method, DiverseAgentEntropy, for evaluating a model’s uncertainty using multi-agent interaction under the assumption that if a model is certain, it should consistently recall the answer to the original query across a diverse collection of questions about the same original query. We further implement an abstention policy to withhold responses when uncertainty is high. Our method offers a more accurate prediction of the model’s reliability and further detects hallucinations, outperforming other self-consistency-based methods. Additionally, it demonstrates that existing models often fail to consistently retrieve the correct answer to the same query under diverse varied questions even when knowing the correct answer.

arxiv情報

著者 Yu Feng,Phu Mon Htut,Zheng Qi,Wei Xiao,Manuel Mager,Nikolaos Pappas,Kishaloy Halder,Yang Li,Yassine Benajiba,Dan Roth
発行日 2024-12-12 18:52:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク