What needs to go right for an induction head? A mechanistic study of in-context learning circuits and their formation

要約

コンテキスト内学習は、トランスフォーマー モデルにおける強力な創発能力です。
機械的解釈可能性に関するこれまでの研究では、コンテキスト内学習にとって重要である可能性のある回路要素、つまり、マッチング アンド コピー操作を実行する誘導ヘッド (IH) が特定されました。
自然言語データに対する大規模なトランスフォーマーのトレーニング中に、損失の顕著な位相変化とほぼ同時に IH が発生します。
IH に関する確固たる証拠と相変化とのこの興味深い一致にもかかわらず、IH の多様性と出現のダイナミクスについては比較的ほとんど知られていません。
なぜ複数の IH があるのでしょうか?また、それらはどのように相互に依存しているのでしょうか?
IH はなぜ突然現れるのでしょうか? IH の出現を可能にするサブ回路は何ですか?
私たちは、合成データでトレーニングすることにより、制御された環境で IH の出現ダイナミクスを研究することで、これらの質問に答えます。
そうすることで、トレーニング全体を通じて活性化を修正するための、光遺伝学にヒントを得た新しい因果関係フレームワークを開発し、共有します。
このフレームワークを使用して、IH の多様性と付加的な性質を説明します。
トレーニング全体を通して活性化のサブセットをクランプすることにより、相互作用して IH 形成を駆動し、位相変化をもたらす 3 つの基礎となるサブ回路を特定します。
さらに、これらのサブ回路は、相変化タイミングなどの地層のデータ依存特性に光を当てており、誘導ヘッドにとって「正しく動作する」必要があるサブ回路のより深い理解が期待できることをすでに示しています。

要約(オリジナル)

In-context learning is a powerful emergent ability in transformer models. Prior work in mechanistic interpretability has identified a circuit element that may be critical for in-context learning — the induction head (IH), which performs a match-and-copy operation. During training of large transformers on natural language data, IHs emerge around the same time as a notable phase change in the loss. Despite the robust evidence for IHs and this interesting coincidence with the phase change, relatively little is known about the diversity and emergence dynamics of IHs. Why is there more than one IH, and how are they dependent on each other? Why do IHs appear all of a sudden, and what are the subcircuits that enable them to emerge? We answer these questions by studying IH emergence dynamics in a controlled setting by training on synthetic data. In doing so, we develop and share a novel optogenetics-inspired causal framework for modifying activations throughout training. Using this framework, we delineate the diverse and additive nature of IHs. By clamping subsets of activations throughout training, we then identify three underlying subcircuits that interact to drive IH formation, yielding the phase change. Furthermore, these subcircuits shed light on data-dependent properties of formation, such as phase change timing, already showing the promise of this more in-depth understanding of subcircuits that need to ‘go right’ for an induction head.

arxiv情報

著者 Aaditya K. Singh,Ted Moskovitz,Felix Hill,Stephanie C. Y. Chan,Andrew M. Saxe
発行日 2024-04-10 16:07:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク