What needs to go right for an induction head? A mechanistic study of in-context learning circuits and their formation


コンテキスト内学習は、トランスフォーマー モデルにおける強力な創発能力です。
機械的解釈可能性に関するこれまでの研究では、コンテキスト内学習にとって重要である可能性のある回路要素、つまり、マッチング アンド コピー操作を実行する誘導ヘッド (IH) が特定されました。
自然言語データに対する大規模なトランスフォーマーのトレーニング中に、損失の顕著な位相変化とほぼ同時に IH が発生します。
IH に関する確固たる証拠と相変化とのこの興味深い一致にもかかわらず、IH の多様性と出現のダイナミクスについては比較的ほとんど知られていません。
なぜ複数の IH があるのでしょうか?また、それらはどのように相互に依存しているのでしょうか?
IH はなぜ突然現れるのでしょうか? IH の出現を可能にするサブ回路は何ですか?
私たちは、合成データでトレーニングすることにより、制御された環境で IH の出現ダイナミクスを研究することで、これらの質問に答えます。
このフレームワークを使用して、IH の多様性と付加的な性質を説明します。
トレーニング全体を通して活性化のサブセットをクランプすることにより、相互作用して IH 形成を駆動し、位相変化をもたらす 3 つの基礎となるサブ回路を特定します。


In-context learning is a powerful emergent ability in transformer models. Prior work in mechanistic interpretability has identified a circuit element that may be critical for in-context learning — the induction head (IH), which performs a match-and-copy operation. During training of large transformers on natural language data, IHs emerge around the same time as a notable phase change in the loss. Despite the robust evidence for IHs and this interesting coincidence with the phase change, relatively little is known about the diversity and emergence dynamics of IHs. Why is there more than one IH, and how are they dependent on each other? Why do IHs appear all of a sudden, and what are the subcircuits that enable them to emerge? We answer these questions by studying IH emergence dynamics in a controlled setting by training on synthetic data. In doing so, we develop and share a novel optogenetics-inspired causal framework for modifying activations throughout training. Using this framework, we delineate the diverse and additive nature of IHs. By clamping subsets of activations throughout training, we then identify three underlying subcircuits that interact to drive IH formation, yielding the phase change. Furthermore, these subcircuits shed light on data-dependent properties of formation, such as phase change timing, already showing the promise of this more in-depth understanding of subcircuits that need to ‘go right’ for an induction head.


著者 Aaditya K. Singh,Ted Moskovitz,Felix Hill,Stephanie C. Y. Chan,Andrew M. Saxe
発行日 2024-04-10 16:07:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク