Adaptive Circuit Behavior and Generalization in Mechanistic Interpretability

要約

機械的解釈可能性は、特定のタスクの実行を担当するアルゴリズムを実装する回路、またはモデル内の最小限のサブグラフを識別することによって、大規模なニューラル ネットワークの内部動作を理解することを目的としています。
これらの回路は通常、狭義に定義されたプロンプト形式を使用して検出および分析されます。
ただし、同じタスクのさまざまなプロンプト形式にわたって一般化できる大規模言語モデル (LLM) の機能を考慮すると、これらの回路がどの程度一般化できるかは依然として不明です。
たとえば、モデルの一般化が同じ回路コンポーネントの再利用によるものなのか、コンポーネントの動作が異なるのか、あるいはまったく異なるコンポーネントの使用によるものなのかは不明です。
この論文では、GPT-2 small の間接オブジェクト識別 (IOI) 回路の一般性を調査します。この回路はよく研究されており、シンプルで解釈可能なアルゴリズムを実装すると考えられています。
このアルゴリズムの前提に疑問を投げかけるプロンプト バリアントでのパフォーマンスを評価します。
私たちの調査結果から、この回路は驚くほどうまく一般化されており、すべてのコンポーネントとメカニズムを再利用しながら、入力エッジを追加するだけであることが明らかになりました。
特に、この回路は、元のアルゴリズムが失敗するはずのバリアントをプロンプトするためにさえ一般化されています。
これを説明するメカニズムを発見しました。これを S2 ハッキングと呼んでいます。
私たちの調査結果は、LLM 内の回路が以前に認識されていたよりも柔軟で汎用的である可能性があることを示しており、これらのモデルのより広範な機能をよりよく理解するために回路の一般化を研究することの重要性を強調しています。

要約(オリジナル)

Mechanistic interpretability aims to understand the inner workings of large neural networks by identifying circuits, or minimal subgraphs within the model that implement algorithms responsible for performing specific tasks. These circuits are typically discovered and analyzed using a narrowly defined prompt format. However, given the abilities of large language models (LLMs) to generalize across various prompt formats for the same task, it remains unclear how well these circuits generalize. For instance, it is unclear whether the models generalization results from reusing the same circuit components, the components behaving differently, or the use of entirely different components. In this paper, we investigate the generality of the indirect object identification (IOI) circuit in GPT-2 small, which is well-studied and believed to implement a simple, interpretable algorithm. We evaluate its performance on prompt variants that challenge the assumptions of this algorithm. Our findings reveal that the circuit generalizes surprisingly well, reusing all of its components and mechanisms while only adding additional input edges. Notably, the circuit generalizes even to prompt variants where the original algorithm should fail; we discover a mechanism that explains this which we term S2 Hacking. Our findings indicate that circuits within LLMs may be more flexible and general than previously recognized, underscoring the importance of studying circuit generalization to better understand the broader capabilities of these models.

arxiv情報

著者 Jatin Nainani,Sankaran Vaidyanathan,AJ Yeung,Kartik Gupta,David Jensen
発行日 2024-12-05 14:16:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, I.2.7 パーマリンク