要約
狭い分布を研究する以前の解釈可能性研究では、大規模な言語モデルのコンポーネントが除去された場合に、後のコンポーネントが補償するために動作を変更する現象である自己修復が事前に特定されています。
私たちの研究はこの過去の文献に基づいて構築されており、完全なトレーニング分布で個々の注意ヘッドを除去するときに、さまざまなモデルファミリーとサイズで自己修復が存在することを実証しています。
さらに、完全なトレーニング分布では、頭の元の直接的な効果が完全に復元されておらず、自己修復の程度がプロンプトごとに大幅に異なるため、ノイズが多いため、自己修復が不完全であることを示します(元の効果を超えて過剰修正される場合があります)。
)。
自己修復に寄与する 2 つの異なるメカニズムに焦点を当てます。これには、最終的な LayerNorm スケーリング係数の変更 (直接効果の最大 30% まで修復可能) と、Anti-Erasure を実装するニューロンのまばらなセットが含まれます。
さらに、解釈可能性の専門家に対するこれらの結果の意味について議論し、そもそもなぜこれらのモデルで自己修復が起こるのかという謎についてのより推測的な議論で締めくくり、自己修復を予測するフレームワークである言語モデルにおける反復推論仮説の証拠を強調します。
修理。
要約(オリジナル)
Prior interpretability research studying narrow distributions has preliminarily identified self-repair, a phenomena where if components in large language models are ablated, later components will change their behavior to compensate. Our work builds off this past literature, demonstrating that self-repair exists on a variety of models families and sizes when ablating individual attention heads on the full training distribution. We further show that on the full training distribution self-repair is imperfect, as the original direct effect of the head is not fully restored, and noisy, since the degree of self-repair varies significantly across different prompts (sometimes overcorrecting beyond the original effect). We highlight two different mechanisms that contribute to self-repair, including changes in the final LayerNorm scaling factor (which can repair up to 30% of the direct effect) and sparse sets of neurons implementing Anti-Erasure. We additionally discuss the implications of these results for interpretability practitioners and close with a more speculative discussion on the mystery of why self-repair occurs in these models at all, highlighting evidence for the Iterative Inference hypothesis in language models, a framework that predicts self-repair.
arxiv情報
著者 | Cody Rushing,Neel Nanda |
発行日 | 2024-02-23 15:42:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google