要約
トランスフォーマーは、インコンテキスト学習 (ICL)、つまり追加の重み更新を行わずにコンテキスト内に提示された新しい情報を使用する機能を示します。
最近の研究では、モデルが十分に多様なタスクのセットでトレーニングされ、タスクの多様性が高まるにつれて暗記から一般化への移行が急激になる場合に ICL が出現することが示されています。
1 つの解釈は、ネットワークの限られた記憶能力が一般化に有利であるというものです。
ここでは、合成 ICL タスクに適用された小型トランスを使用して、この遷移のメカニズムの基礎を調べます。
理論と実験を使用して、記憶と一般化を行うサブ回路がほぼ独立していると見なせることを示します。
これらのサブ回路が学習する相対的な速度は、容量の制約ではなく、暗記から一般化への移行を説明します。
私たちは、ネットワークが一般化するタスクの多様性のしきい値を決定する記憶スケーリング則を明らかにします。
この理論は、ICL 獲得時のロングテール分布、タスク多様性閾値に近いソリューションの二峰性挙動、ICL に対するコンテキストおよびデータ分布統計の影響、および ICL に対する他のさまざまな ICL 関連現象を定量的に説明します。
ICL の一時的な性質。
要約(オリジナル)
Transformers exhibit in-context learning (ICL): the ability to use novel information presented in the context without additional weight updates. Recent work shows that ICL emerges when models are trained on a sufficiently diverse set of tasks and the transition from memorization to generalization is sharp with increasing task diversity. One interpretation is that a network’s limited capacity to memorize favors generalization. Here, we examine the mechanistic underpinnings of this transition using a small transformer applied to a synthetic ICL task. Using theory and experiment, we show that the sub-circuits that memorize and generalize can be viewed as largely independent. The relative rates at which these sub-circuits learn explains the transition from memorization to generalization, rather than capacity constraints. We uncover a memorization scaling law, which determines the task diversity threshold at which the network generalizes. The theory quantitatively explains a variety of other ICL-related phenomena, including the long-tailed distribution of when ICL is acquired, the bimodal behavior of solutions close to the task diversity threshold, the influence of contextual and data distributional statistics on ICL, and the transient nature of ICL.
arxiv情報
著者 | Alex Nguyen,Gautam Reddy |
発行日 | 2024-12-12 16:10:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google