要約
(Geshkovski et al., 2023) で紹介されたフレームワークに基づいて、平均場相互作用粒子システムによって支配される単位球上の連続時間の流れとして、Transformer レイヤーの深いスタック内でのトークンの進化をモデル化します。
この論文では、ワッサーシュタイン勾配流として解釈できる、対応する平均場偏微分方程式 (PDE) を研究し、特に出現と持続に焦点を当てて、この系の長期挙動の数学的調査を提供します。
準安定相とクラスタリング現象、次のトークン予測などのアプリケーションの重要な要素。
より具体的には、iid の均一初期化を中心とした平均場偏微分方程式の摂動解析を実行し、多数のトークンの制限内で、モデルが特定の構造 (例:
、周期性)。
さらに、準安定多様体を特徴付ける構造は、ゲーゲンバウアー多項式の特定の再スケーリングを最大化する指数によって、モデルの逆温度パラメーターの関数として明示的に識別されます。
要約(オリジナル)
We model the evolution of tokens within a deep stack of Transformer layers as a continuous-time flow on the unit sphere, governed by a mean-field interacting particle system, building on the framework introduced in (Geshkovski et al., 2023). Studying the corresponding mean-field Partial Differential Equation (PDE), which can be interpreted as a Wasserstein gradient flow, in this paper we provide a mathematical investigation of the long-term behavior of this system, with a particular focus on the emergence and persistence of meta-stable phases and clustering phenomena, key elements in applications like next-token prediction. More specifically, we perform a perturbative analysis of the mean-field PDE around the iid uniform initialization and prove that, in the limit of large number of tokens, the model remains close to a meta-stable manifold of solutions with a given structure (e.g., periodicity). Further, the structure characterizing the meta-stable manifold is explicitly identified, as a function of the inverse temperature parameter of the model, by the index maximizing a certain rescaling of Gegenbauer polynomials.
arxiv情報
著者 | Giuseppe Bruno,Federico Pasqualotto,Andrea Agazzi |
発行日 | 2024-10-30 17:16:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google