(Im)possibility of Automated Hallucination Detection in Large Language Models

要約

自動幻覚検出は可能ですか?
この作業では、大規模な言語モデル(LLM)によって生成された幻覚を自動的に検出する可能性を分析するための理論的枠組みを紹介します。
言語識別のための古典的なゴールドアングルインフレームワークと、クラインバーグとマリナサンによる言語生成への最近の適応に触発されたアルゴリズムは、未知のターゲット言語$ k $(カスタルコレクションから選択)から描かれた例でトレーニングされ、LLMへのアクセスが与えられ、LLMが正しいかどうかを信頼できるかどうかを判断するかどうかを調査します。
まず、幻覚検出と言語識別の古典的なタスクとの等価性を確立します。
幻覚検出方法は言語識別法に変換できることを証明し、逆に、言語識別を解くアルゴリズムは幻覚検出に適合させることができます。
言語識別の固有の難しさを考えると、これは、ターゲット言語の正しい例のみを使用して検出器がトレーニングされている場合、ほとんどの言語コレクションにとって幻覚の検出が基本的に不可能であることを意味します。
第二に、専門家標識フィードバックの使用、つまり、ポジティブな例(正しいステートメント)と否定的な例(明示的に誤ったステートメントとラベル付けされた)の両方で検出器をトレーニングすることは、この結論を劇的に変化させることを示します。
この豊かなトレーニング体制の下では、すべての数えられる言語コレクションで自動化された幻覚検出が可能になります。
これらの結果は、幻覚検出器のトレーニングにおける専門家標識の例の本質的な役割を強調し、信頼性の高いLLM展開に重要であることが証明された人間のフィードバックによる補強学習(RLHF)など、フィードバックベースの方法の理論的サポートを提供します。

要約(オリジナル)

Is automated hallucination detection possible? In this work, we introduce a theoretical framework to analyze the feasibility of automatically detecting hallucinations produced by large language models (LLMs). Inspired by the classical Gold-Angluin framework for language identification and its recent adaptation to language generation by Kleinberg and Mullainathan, we investigate whether an algorithm, trained on examples drawn from an unknown target language $K$ (selected from a countable collection) and given access to an LLM, can reliably determine whether the LLM’s outputs are correct or constitute hallucinations. First, we establish an equivalence between hallucination detection and the classical task of language identification. We prove that any hallucination detection method can be converted into a language identification method, and conversely, algorithms solving language identification can be adapted for hallucination detection. Given the inherent difficulty of language identification, this implies that hallucination detection is fundamentally impossible for most language collections if the detector is trained using only correct examples from the target language. Second, we show that the use of expert-labeled feedback, i.e., training the detector with both positive examples (correct statements) and negative examples (explicitly labeled incorrect statements), dramatically changes this conclusion. Under this enriched training regime, automated hallucination detection becomes possible for all countable language collections. These results highlight the essential role of expert-labeled examples in training hallucination detectors and provide theoretical support for feedback-based methods, such as reinforcement learning with human feedback (RLHF), which have proven critical for reliable LLM deployment.

arxiv情報

著者 Amin Karbasi,Omar Montasser,John Sous,Grigoris Velegkas
発行日 2025-06-02 15:53:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, stat.ML パーマリンク