The Asymptotic Behavior of Attention in Transformers

要約

トランスフォーマーの重要な構成要素は、各トークンがトランスフォーマーを通して他のトークンの伝播にどのような影響を与えるかを編成するアテンションメカニズムである。本稿では、トランスフォーマーにおけるアテンションの漸近的特性について、厳密で数学的な解析を行う。異なる仮定に基づくいくつかの結果を示すが、そのすべてが同じ結論を示している。すべてのトークンは漸近的に互いに収束するという現象は、文献で経験的に報告されている。我々の発見は、既存の理論的結果と注意深く比較され、GPT-2モデルを用いたシミュレーションと実験的研究によって説明される。

要約(オリジナル)

A key component of transformers is the attention mechanism orchestrating how each token influences the propagation of every other token through a transformer. In this paper we provide a rigorous, mathematical analysis of the asymptotic properties of attention in transformers. Although we present several results based on different assumptions, all of them point to the same conclusion, all tokens asymptotically converge to each other, a phenomenon that has been empirically reported in the literature. Our findings are carefully compared with existing theoretical results and illustrated by simulations and experimental studies using the GPT-2 model.

arxiv情報

著者 Álvaro Rodríguez Abella,João Pedro Silvestre,Paulo Tabuada
発行日 2024-12-03 18:54:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, cs.SY, eess.SY, math.DS, math.OC パーマリンク