Attention is Not All You Need: Pure Attention Loses Rank Doubly Exponentially with Depth

要約

アテンションベースのアーキテクチャは機械学習において広く普及していますが、その有効性の理由についての理解は依然として限られています。
この研究は、自己注意ネットワークを理解するための新しい方法を提案します。つまり、自己注意ネットワークの出力が、各層にわたる一連の注意ヘッドの操作を含む、より小さな項の合計に分解できることを示します。
この分解を使用して、自己注意には「トークンの均一性」に対する強い帰納的バイアスがあることが証明されます。
具体的には、スキップ接続や多層パーセプトロン (MLP) を使用しない場合、出力はランク 1 行列に二重に指数関数的に収束します。
一方、スキップ接続と MLP は出力の縮退を停止します。
私たちの実験では、標準変圧器アーキテクチャのさまざまなバリエーションで特定された収束現象を検証します。

要約(オリジナル)

Attention-based architectures have become ubiquitous in machine learning, yet our understanding of the reasons for their effectiveness remains limited. This work proposes a new way to understand self-attention networks: we show that their output can be decomposed into a sum of smaller terms, each involving the operation of a sequence of attention heads across layers. Using this decomposition, we prove that self-attention possesses a strong inductive bias towards ‘token uniformity’. Specifically, without skip connections or multi-layer perceptrons (MLPs), the output converges doubly exponentially to a rank-1 matrix. On the other hand, skip connections and MLPs stop the output from degeneration. Our experiments verify the identified convergence phenomena on different variants of standard transformer architectures.

arxiv情報

著者 Yihe Dong,Jean-Baptiste Cordonnier,Andreas Loukas
発行日 2023-08-01 14:27:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク