Infinite Limits of Multi-head Transformer Dynamics

要約

この研究では、特徴学習領域における変圧器モデルのトレーニング ダイナミクスのさまざまなスケーリング制限を分析します。
私たちは、明確に定義された無限の幅と深さの制限を許可するパラメーター化のセットを特定し、トレーニングを通じてアテンション層を更新できるようにします。これは、これらのモデルにおける特徴学習に関連する概念です。
次に、動的平均場理論 (DMFT) のツールを使用して、どの無限制限が採用されるか、およびアテンション レイヤーがどのようにスケーリングされるかに応じて異なる統計的記述を持つさまざまな無限制限 (無限のキー/クエリ次元、無限のヘッド、および無限の深さ) を分析します。
限界への収束の数値的証拠を提供し、パラメータ化が学習された特徴にどのように定性的に影響するかを議論します。

要約(オリジナル)

In this work, we analyze various scaling limits of the training dynamics of transformer models in the feature learning regime. We identify the set of parameterizations that admit well-defined infinite width and depth limits, allowing the attention layers to update throughout training–a relevant notion of feature learning in these models. We then use tools from dynamical mean field theory (DMFT) to analyze various infinite limits (infinite key/query dimension, infinite heads, and infinite depth) which have different statistical descriptions depending on which infinite limit is taken and how attention layers are scaled. We provide numerical evidence of convergence to the limits and discuss how the parameterization qualitatively influences learned features.

arxiv情報

著者 Blake Bordelon,Hamza Tahir Chaudhry,Cengiz Pehlevan
発行日 2024-05-24 17:01:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.dis-nn, cs.LG, stat.ML パーマリンク