Emergence of meta-stable clustering in mean-field transformer models

要約

トランス層の深いスタック内のトークンの進化を、ユニット球上の連続時間フローとしてモデル化し、平均フィールド相互作用粒子システムによって支配され、導入されたフレームワークに基づいて構築されます(Geshkovski et al。、2023)。
ワッシャースタイン勾配の流れとして解釈できる対応する平均フィールドの部分微分方程式(PDE)を研究します。このペーパーでは、このシステムの長期的な挙動の数学的調査を提供し、メタ安定性フェーズの出現と持続性と、フェノメナの主要な要素をクラスター化することに特に焦点を当てています。
より具体的には、IIDの均一初期化の周りの平均場PDEの摂動分析を実行し、多数のトークンの限界で、モデルは特定の構造を持つ溶液のメタ安定マニホールドに近いままであることを証明します。
さらに、メタ安定マニホールドを特徴付ける構造は、ゲーゲンバウアー多項式の特定の再スケーリングを最大化するインデックスによって、モデルの逆温度パラメーターの関数として明示的に識別されます。

要約(オリジナル)

We model the evolution of tokens within a deep stack of Transformer layers as a continuous-time flow on the unit sphere, governed by a mean-field interacting particle system, building on the framework introduced in (Geshkovski et al., 2023). Studying the corresponding mean-field Partial Differential Equation (PDE), which can be interpreted as a Wasserstein gradient flow, in this paper we provide a mathematical investigation of the long-term behavior of this system, with a particular focus on the emergence and persistence of meta-stable phases and clustering phenomena, key elements in applications like next-token prediction. More specifically, we perform a perturbative analysis of the mean-field PDE around the iid uniform initialization and prove that, in the limit of large number of tokens, the model remains close to a meta-stable manifold of solutions with a given structure (e.g., periodicity). Further, the structure characterizing the meta-stable manifold is explicitly identified, as a function of the inverse temperature parameter of the model, by the index maximizing a certain rescaling of Gegenbauer polynomials.

arxiv情報

著者 Giuseppe Bruno,Federico Pasqualotto,Andrea Agazzi
発行日 2025-04-16 16:07:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 34D05, 34D06, 35Q83, cs.LG, math.AP パーマリンク