要約
この研究では、すべてのトークンの各層からの内部ログを分析することによって幻覚を検出するための教師ありフレームワークである CHAIR (Classifier of Hallucination As ImprovementR) を紹介します。
私たちの手法は、すべての層にわたるトークン ロジットから最大値、最小値、平均値、標準偏差、傾きなどのコンパクトな特徴セットを抽出し、過剰適合することなく効果的な幻覚検出を可能にします。
TruthfulQA および MMLU データセットの実験では、CHAIR が特にゼロショット シナリオで検出精度を大幅に向上させ、その堅牢性と汎用性を示していることが実証されています。
CHAIR は、幻覚の検出を超えて、高度な復号化戦略を設計するために内部表現を使用する可能性を強調しています。
ロジットのパターンを活用することで、より洗練されたモデルと適応型デコード手法が幻覚をさらに軽減し、テキスト補完の品質を向上できる可能性があることを示唆しています。
CHAIR は、幻覚を検出するための実用的なソリューションを提供するだけでなく、LLM のより豊かな表現を探索して事実性と一貫性を向上させるための基礎も築きます。
要約(オリジナル)
In this work, we introduce CHAIR (Classifier of Hallucination As ImproveR), a supervised framework for detecting hallucinations by analyzing internal logits from each layer of every token. Our method extracts a compact set of features such as maximum, minimum, mean, standard deviation, and slope-from the token logits across all layers, enabling effective hallucination detection without overfitting. Experiments on TruthfulQA and MMLU datasets demonstrate that CHAIR significantly improves detection accuracy, particularly in zero-shot scenarios, showcasing its robustness and generalizability. Beyond hallucination detection, CHAIR highlights the potential of using internal representations for designing advanced decoding strategies. By leveraging patterns in logits, we suggest that more sophisticated models and adaptive decoding methods could further reduce hallucinations and enhance text completion quality. CHAIR not only offers a practical solution for detecting hallucinations but also lays the groundwork for exploring richer representations in LLMs to improve their factuality and coherence.
arxiv情報
著者 | Ao Sun |
発行日 | 2025-01-22 11:49:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google