SAC$^3$: Reliable Hallucination Detection in Black-Box Language Models via Semantic-aware Cross-check Consistency

要約

幻覚検出は、最新の言語モデル(LM)の信頼性を理解するための重要なステップである。この目標を達成するために、我々はLMの自己無撞着性に基づく既存の検出アプローチを再検討し、自己無撞着性チェックだけでは効果的に識別できない、1)質問レベルと2)モデルレベルに起因する2種類の幻覚を発見する。この発見を基に、自己矛盾チェックの原理を発展させた新しいサンプリングに基づく手法、すなわちセマンティック・アウェア・クロスチェック・コンシステンシー(SAC$^3$)を提案する。我々のSAC$^3$アプローチは、意味的に等価な質問摂動とモデル間の応答一貫性検査を含む進歩を活用することで、質問レベルとモデルレベルの両方の幻覚を検出するための追加のメカニズムを組み込む。広範で体系的な実証分析を通して、SAC$^3$が複数の質問応答とオープンドメイン生成ベンチマークにおいて、事実でない記述と事実の記述の両方を検出することにおいて、最先端の技術を凌駕することを実証する。

要約(オリジナル)

Hallucination detection is a critical step toward understanding the trustworthiness of modern language models (LMs). To achieve this goal, we re-examine existing detection approaches based on the self-consistency of LMs and uncover two types of hallucinations resulting from 1) question-level and 2) model-level, which cannot be effectively identified through self-consistency check alone. Building upon this discovery, we propose a novel sampling-based method, i.e., semantic-aware cross-check consistency (SAC$^3$) that expands on the principle of self-consistency checking. Our SAC$^3$ approach incorporates additional mechanisms to detect both question-level and model-level hallucinations by leveraging advances including semantically equivalent question perturbation and cross-model response consistency checking. Through extensive and systematic empirical analysis, we demonstrate that SAC$^3$ outperforms the state of the art in detecting both non-factual and factual statements across multiple question-answering and open-domain generation benchmarks.

arxiv情報

著者 Jiaxin Zhang,Zhuohang Li,Kamalika Das,Bradley A. Malin,Sricharan Kumar
発行日 2023-11-03 06:32:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク