The Transient Nature of Emergent In-Context Learning in Transformers

要約

トランスフォーマー ニューラル ネットワークは、明示的にトレーニングされていないにもかかわらず、コンテキスト内学習 (ICL) に対して驚くべき能力を発揮します。
これまでの研究により、変圧器内で ICL がどのように発生するかについて、より深い理解が得られました。
機械的な解釈可能性、ベイズ推論のレンズを通して、またはトレーニング データの分布特性を調べることによって。
ただし、これらのいずれの場合でも、ICL は主に持続的な現象として扱われます。
つまり、ICL が出現すると、漸近的に持続すると考えられます。
ここで、変圧器のトレーニング中の ICL の出現は、実際には一時的なことが多いことを示します。
ICL と重み付け学習 (IWL) 戦略の両方が正しい予測につながるように設計された合成データに基づいてトランスフォーマーをトレーニングします。
最初に ICL が出現し、次に消滅して IWL に取って代わられるが、その間トレーニング損失は減少しており、IWL が漸近的に優先されることを示しています。
ICL の過渡的な性質は、さまざまなモデル サイズとデータセットの変換器で観察され、コンパクトで実行コストの低いモデルを求める場合、変換器をどの程度「オーバートレーニング」するかという問題が生じます。
L2 正規化は、ICL スタイルの検証タスクに基づいた早期停止の必要性を排除する、より永続的な ICL への道を提供する可能性があることがわかりました。
最後に、ICL 過渡現象が ICL 回路と IWL 回路間の競合によって引き起こされる可能性があるという最初の証拠を示します。

要約(オリジナル)

Transformer neural networks can exhibit a surprising capacity for in-context learning (ICL) despite not being explicitly trained for it. Prior work has provided a deeper understanding of how ICL emerges in transformers, e.g. through the lens of mechanistic interpretability, Bayesian inference, or by examining the distributional properties of training data. However, in each of these cases, ICL is treated largely as a persistent phenomenon; namely, once ICL emerges, it is assumed to persist asymptotically. Here, we show that the emergence of ICL during transformer training is, in fact, often transient. We train transformers on synthetic data designed so that both ICL and in-weights learning (IWL) strategies can lead to correct predictions. We find that ICL first emerges, then disappears and gives way to IWL, all while the training loss decreases, indicating an asymptotic preference for IWL. The transient nature of ICL is observed in transformers across a range of model sizes and datasets, raising the question of how much to ‘overtrain’ transformers when seeking compact, cheaper-to-run models. We find that L2 regularization may offer a path to more persistent ICL that removes the need for early stopping based on ICL-style validation tasks. Finally, we present initial evidence that ICL transience may be caused by competition between ICL and IWL circuits.

arxiv情報

著者 Aaditya K. Singh,Stephanie C. Y. Chan,Ted Moskovitz,Erin Grant,Andrew M. Saxe,Felix Hill
発行日 2023-11-14 18:03:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク