The Internal State of an LLM Knows When its Lying

要約

【タイトル】LLMの内部状態は嘘をついていることを知っている
【要約】
– 大型言語モデル(LLM)は、様々なタスクで卓越した性能を発揮しているが、その最大の欠点は自信を持って誤った情報や虚偽の情報を生成することである。
– 本論文では、LLMの内部状態が文の真偽を明らかにするために使用できるという仮説を立て、LLMが生成した文の真偽を検出するための簡単で効果的な方法を提案する。
– トレーニングおよび評価するために、6つの異なるトピックで真実と虚偽の文のデータセットを構成し、LLMの活性化値を使用してどの文が真実か偽りの情報かを検出する分類器をトレーニングする。
– 実験の結果、LLMが生成した文の真偽を検出するためのこの方法は、few-shot prompting methodsでも明らかに優れた性能を発揮し、LLMが生成したコンテンツの信頼性を向上させるポテンシャルを持ち、現実のシナリオでの実用性を示している。

要約(オリジナル)

While Large Language Models (LLMs) have shown exceptional performance in various tasks, their (arguably) most prominent drawback is generating inaccurate or false information with a confident tone. In this paper, we hypothesize that the LLM’s internal state can be used to reveal the truthfulness of a statement. Therefore, we introduce a simple yet effective method to detect the truthfulness of LLM-generated statements, which utilizes the LLM’s hidden layer activations to determine the veracity of statements. To train and evaluate our method, we compose a dataset of true and false statements in six different topics. A classifier is trained to detect which statement is true or false based on an LLM’s activation values. Specifically, the classifier receives as input the activation values from the LLM for each of the statements in the dataset. Our experiments demonstrate that our method for detecting statement veracity significantly outperforms even few-shot prompting methods, highlighting its potential to enhance the reliability of LLM-generated content and its practical applicability in real-world scenarios.

arxiv情報

著者 Amos Azaria,Tom Mitchell
発行日 2023-04-26 02:49:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク