Universal Response and Emergence of Induction in LLMs

要約

帰納法は LLM におけるコンテキスト内学習の重要なメカニズムと考えられていますが、おもちゃのモデルを超えてその正確な回路分解を理解することは依然として困難です。
ここでは、残留ストリームの弱い単一トークンの摂動に対する LLM の応答を調査することにより、LLM 内の誘導挙動の出現を研究します。
LLM は、摂動の強さが変化しても応答がスケール不変のままである堅牢で普遍的な体制を示し、それによってモデル全体に​​わたるトークン相関の蓄積を定量化できることがわかりました。
私たちの方法を適用することにより、Gemma-2-2B、Llama-3.2-3B、および GPT-2-XL の残留ストリーム内の誘導挙動の兆候が観察されます。
すべてのモデルにわたって、これらの誘導シグネチャが中間層内で徐々に出現し、この動作を構成する関連モデル セクションを特定することがわかりました。
私たちの結果は、LLM 内のコンポーネントの集合的な相互作用に関する洞察を提供し、大規模な回路解析のベンチマークとして機能します。

要約(オリジナル)

While induction is considered a key mechanism for in-context learning in LLMs, understanding its precise circuit decomposition beyond toy models remains elusive. Here, we study the emergence of induction behavior within LLMs by probing their response to weak single-token perturbations of the residual stream. We find that LLMs exhibit a robust, universal regime in which their response remains scale-invariant under changes in perturbation strength, thereby allowing us to quantify the build-up of token correlations throughout the model. By applying our method, we observe signatures of induction behavior within the residual stream of Gemma-2-2B, Llama-3.2-3B, and GPT-2-XL. Across all models, we find that these induction signatures gradually emerge within intermediate layers and identify the relevant model sections composing this behavior. Our results provide insights into the collective interplay of components within LLMs and serve as a benchmark for large-scale circuit analysis.

arxiv情報

著者 Niclas Luick
発行日 2024-11-11 15:47:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク