要約
現在導入されている大規模言語モデル (LLM) のほとんどは、継続的なトレーニングまたは追加の微調整を受けています。
対照的に、LLM の内部メカニズムに関するほとんどの研究は、ある時点の 1 つのスナップショット (事前トレーニングの終了時) のモデルに焦点を当てており、その結果が現実世界の設定に一般化されるかどうかという疑問が生じています。
長期にわたるメカニズムに関する既存の研究は、エンコーダのみのモデルまたはおもちゃのモデルに焦点を当てており、ほとんどの導入モデルとは大きく異なります。
この研究では、7,000 万から 28 億のパラメーターにわたるモデルで、デコーダー専用 LLM での 3,000 億トークンのトレーニング全体にわたって、回路として操作可能なモデル メカニズムがどのように出現し、進化するかを追跡します。
タスクの能力とそれをサポートする機能コンポーネントは、規模全体で同様のトークン数で一貫して出現することがわかりました。
さらに、そのようなコンポーネントは時間の経過とともに異なるアテンションヘッドによって実装される可能性がありますが、それらが実装する包括的なアルゴリズムは残ります。
驚くべきことに、これらのアルゴリズムとそれに含まれるコンポーネントのタイプは両方とも、モデルのスケール全体で複製できます。
これらの結果は、事前トレーニングの最後に小さなモデルに対して実行された回路解析により、追加の事前トレーニングやモデル規模を超えた後でも適用できる洞察が得られることを示唆しています。
要約(オリジナル)
Most currently deployed large language models (LLMs) undergo continuous training or additional finetuning. By contrast, most research into LLMs’ internal mechanisms focuses on models at one snapshot in time (the end of pre-training), raising the question of whether their results generalize to real-world settings. Existing studies of mechanisms over time focus on encoder-only or toy models, which differ significantly from most deployed models. In this study, we track how model mechanisms, operationalized as circuits, emerge and evolve across 300 billion tokens of training in decoder-only LLMs, in models ranging from 70 million to 2.8 billion parameters. We find that task abilities and the functional components that support them emerge consistently at similar token counts across scale. Moreover, although such components may be implemented by different attention heads over time, the overarching algorithm that they implement remains. Surprisingly, both these algorithms and the types of components involved therein can replicate across model scale. These results suggest that circuit analyses conducted on small models at the end of pre-training can provide insights that still apply after additional pre-training and over model scale.
arxiv情報
著者 | Curt Tigges,Michael Hanna,Qinan Yu,Stella Biderman |
発行日 | 2024-07-15 15:38:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google