Weakly Supervised Detection of Hallucinations in LLM Activations

要約

私たちは、大規模言語モデル (LLM) がその内部状態で幻覚などのパターンをエンコードしており、それが下流のタスクに伝播する可能性があるかどうかを識別するための監査方法を提案します。
事前トレーニングされたモデルから LLM アクティベーションの異常なパターンを検出するために、サブセット スキャン アプローチを使用した弱教師監査手法を導入します。
重要なのは、私たちの方法ではパターンの種類についての事前の知識を必要としないことです。
代わりに、テスト中に異常のない参照データセットに依存します。
さらに、私たちのアプローチにより、これらのパターンのエンコードを担当する重要なノードの特定が可能になり、バイアスを軽減するために特定のサブネットワークを微調整するための重要な洞察が得られる可能性があります。
どちらの方向でも予想される分布から逸脱する可能性がある異常な文の LLM アクティベーションを処理する 2 つの新しいスキャン方法を導入します。
私たちの結果は、BERT の幻覚をエンコードするための内部容量が限られているという以前の調査結果を裏付けるものですが、OPT は内部的に幻覚情報をエンコードできるようです。
重要なのは、私たちのスキャン手法は、事前に虚偽の記述にさらされることなく、完全に監視された分布外分類器と同等のパフォーマンスを発揮することです。

要約(オリジナル)

We propose an auditing method to identify whether a large language model (LLM) encodes patterns such as hallucinations in its internal states, which may propagate to downstream tasks. We introduce a weakly supervised auditing technique using a subset scanning approach to detect anomalous patterns in LLM activations from pre-trained models. Importantly, our method does not need knowledge of the type of patterns a-priori. Instead, it relies on a reference dataset devoid of anomalies during testing. Further, our approach enables the identification of pivotal nodes responsible for encoding these patterns, which may offer crucial insights for fine-tuning specific sub-networks for bias mitigation. We introduce two new scanning methods to handle LLM activations for anomalous sentences that may deviate from the expected distribution in either direction. Our results confirm prior findings of BERT’s limited internal capacity for encoding hallucinations, while OPT appears capable of encoding hallucination information internally. Importantly, our scanning approach, without prior exposure to false statements, performs comparably to a fully supervised out-of-distribution classifier.

arxiv情報

著者 Miriam Rateike,Celia Cintas,John Wamburu,Tanya Akumu,Skyler Speakman
発行日 2023-12-05 14:35:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク