要約
私たちは、Transformer ベースの大規模言語モデル (LLM) が事実に反するテキストを生成するときの内部動作を調査します。
私たちは、事実のクエリを制約満足問題としてモデル化することを提案し、このフレームワークを使用して、モデルが事実の制約と内部的にどのように相互作用するかを調査します。
具体的には、制約トークンに対するモデルの注意とその応答の事実の正確さとの間に強い正の関係があることを発見しました。
40,000 を超えるプロンプトを含む 11 個のデータセットからなる厳選されたスイートで、すべてのスケール (7B、13B、70B) にわたる Llama-2 ファミリーを使用して事実誤認を予測するタスクを研究します。
我々は、自己注意パターンを調査する方法である SAT プローブを提案します。これは、制約の充足と事実上の誤りを予測でき、早期の誤りの特定を可能にします。
このアプローチと調査結果は、LLM における事実のメカニズム的理解を使用することで信頼性がどのように向上するかを示しています。
要約(オリジナル)
We investigate the internal behavior of Transformer-based Large Language Models (LLMs) when they generate factually incorrect text. We propose modeling factual queries as Constraint Satisfaction Problems and use this framework to investigate how the model interacts internally with factual constraints. Specifically, we discover a strong positive relation between the model’s attention to constraint tokens and the factual accuracy of its responses. In our curated suite of 11 datasets with over 40,000 prompts, we study the task of predicting factual errors with the Llama-2 family across all scales (7B, 13B, 70B). We propose SAT Probe, a method probing self-attention patterns, that can predict constraint satisfaction and factual errors, and allows early error identification. The approach and findings demonstrate how using the mechanistic understanding of factuality in LLMs can enhance reliability.
arxiv情報
著者 | Mert Yuksekgonul,Varun Chandrasekaran,Erik Jones,Suriya Gunasekar,Ranjita Naik,Hamid Palangi,Ece Kamar,Besmira Nushi |
発行日 | 2023-09-26 17:48:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google