The emergence of clusters in self-attention dynamics

要約

トランスフォーマーを相互作用する粒子システムとみなして、重みが時間に依存しない場合の学習された表現のジオメトリを記述します。
時間が無限大に向かうにつれて、トークンを表す粒子が特定の限定されたオブジェクトに向かって集まる傾向があることを示します。
クラスターの位置は初期トークンによって決定され、トランスフォーマーによって学習された表現のコンテキスト認識が確認されます。
力学系と偏微分方程式の手法を使用して、出現する制限オブジェクトのタイプが値行列のスペクトルに依存することを示します。
さらに、1 次元の場合、自己注意行列が低ランクのブール行列に収束することを証明します。
これらの結果を組み合わせると、Vaswani らによる経験的観察が数学的に裏付けられます。
[VSP’17] リーダーはトランスフォーマーによって処理されるときに一連のトークンに表示されます。

要約(オリジナル)

Viewing Transformers as interacting particle systems, we describe the geometry of learned representations when the weights are not time dependent. We show that particles, representing tokens, tend to cluster toward particular limiting objects as time tends to infinity. Cluster locations are determined by the initial tokens, confirming context-awareness of representations learned by Transformers. Using techniques from dynamical systems and partial differential equations, we show that the type of limiting object that emerges depends on the spectrum of the value matrix. Additionally, in the one-dimensional case we prove that the self-attention matrix converges to a low-rank Boolean matrix. The combination of these results mathematically confirms the empirical observation made by Vaswani et al. [VSP’17] that leaders appear in a sequence of tokens when processed by Transformers.

arxiv情報

著者 Borjan Geshkovski,Cyril Letrouit,Yury Polyanskiy,Philippe Rigollet
発行日 2023-05-17 15:16:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.AP, stat.ML パーマリンク