Learning to grok: Emergence of in-context learning and skill composition in modular arithmetic tasks

要約

大規模な言語モデルは、トレーニング セットには存在しなかったタスクを解決できます。
この能力は、状況に応じた学習とスキルの構成によるものであると考えられています。
この研究では、モジュール式の算術タスクの集合における文脈内学習とスキル構成の出現を研究します。
具体的には、線形モジュラー関数 $z = a \, x + b \, y \;\mathrm{mod}\; の有限集合を考えます。
p$ はベクトル $(a, b) \in \mathbb{Z}_p^2$ によってラベル付けされます。
これらのタスクの一部は事前トレーニングに使用し、残りは配布外テストに使用します。
我々は、GPT スタイルの変換器が、事前トレーニング タスクの数が増加するにつれて、分布内汎化から分布外汎化への移行を示すことを経験的に示します。
分布外汎化が可能な最小のモデルには 2 つの変圧器ブロックが必要ですが、より深いモデルの場合、分布外汎化フェーズは \emph{transient} であり、早期の停止が必要であることがわかります。
最後に、事前トレーニングされたモデルの解釈可能性の調査を実行し、両方のフェーズで高度に構造化された表現を明らかにします。
学習したアルゴリズムについて話し合います。

要約(オリジナル)

Large language models can solve tasks that were not present in the training set. This capability is believed to be due to in-context learning and skill composition. In this work, we study the emergence of in-context learning and skill composition in a collection of modular arithmetic tasks. Specifically, we consider a finite collection of linear modular functions $z = a \, x + b \, y \;\mathrm{mod}\; p$ labeled by the vector $(a, b) \in \mathbb{Z}_p^2$. We use some of these tasks for pre-training and the rest for out-of-distribution testing. We empirically show that a GPT-style transformer exhibits a transition from in-distribution to out-of-distribution generalization as the number of pre-training tasks increases. We find that the smallest model capable of out-of-distribution generalization requires two transformer blocks, while for deeper models, the out-of-distribution generalization phase is \emph{transient}, necessitating early stopping. Finally, we perform an interpretability study of the pre-trained models, revealing the highly structured representations in both phases; and discuss the learnt algorithm.

arxiv情報

著者 Tianyu He,Darshil Doshi,Aritra Das,Andrey Gromov
発行日 2024-06-04 17:59:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.dis-nn, cs.LG, hep-th, stat.ML パーマリンク