要約
トランスにおける自己関節メカニズムの内因性(注意ヘッド内)および外因性(注意ヘッドの中で)構造を調べます。
自己関節メカニズムのソフトマックスの活性化に対する不変性の理論的証拠は、注意ヘッドの本質的な組織に依存する麻痺性計算に訴える(そして計算例によってサポートされている)ことによって得られます。
さらに、ネットワーク3テンソルのクエリ、キー、およびヘッド軸に関して階層パーティションツリーを構築することにより、テンソルの階層構成に既存の方法論を使用して、ネットワーク構造を調べます。
このような組織は、組織化されたネットワーク3テンソルが規則性を示すジオメトリで一般的な信号処理タスクを有益に実行できるため、結果的です。
注意ヘッドと拡散マップの埋め込みで構成されたツリーの階層的な組織を視覚化することにより、これを定性的に例示し、個々の注意ヘッドの拡張係数とネットワーク全体を(それぞれ(それぞれ(キー)キー、ネットワークの空間)、およびヘッドのヘッドの空間に(それぞれ)トリハール底の拡張係数とネットワークのスパースを調査することにより定量的に例示します。
理論的および方法論的な調査結果の有用性を紹介するために、ビジョンと言語の変圧器を使用して計算例を提供します。
これらの調査結果の影響は2つあります。(1)解釈可能性分析のその後のステップが理論的に認められており、下流の解釈可能性タスクのために経験的に活用される可能性があります(2)モデルプリング(ネットワークスパースのおかげで)やネットワークアーキテクチャの比較などの経験的ネットワークアプリケーションにネットワーク3テンソル組織を使用できます。
要約(オリジナル)
We examine the intrinsic (within the attention head) and extrinsic (amongst the attention heads) structure of the self-attention mechanism in transformers. Theoretical evidence for invariance of the self-attention mechanism to softmax activation is obtained by appealing to paradifferential calculus, (and is supported by computational examples), which relies on the intrinsic organization of the attention heads. Furthermore, we use an existing methodology for hierarchical organization of tensors to examine network structure by constructing hierarchal partition trees with respect to the query, key, and head axes of network 3-tensors. Such an organization is consequential since it allows one to profitably execute common signal processing tasks on a geometry where the organized network 3-tensors exhibit regularity. We exemplify this qualitatively, by visualizing the hierarchical organization of the tree comprised of attention heads and the diffusion map embeddings, and quantitatively by investigating network sparsity with the expansion coefficients of individual attention heads and the entire network with respect to the bi and tri-haar bases (respectively) on the space of queries, keys, and heads of the network. To showcase the utility of our theoretical and methodological findings, we provide computational examples using vision and language transformers. The ramifications of these findings are two-fold: (1) a subsequent step in interpretability analysis is theoretically admitted, and can be exploited empirically for downstream interpretability tasks (2) one can use the network 3-tensor organization for empirical network applications such as model pruning (by virtue of network sparsity) and network architecture comparison.
arxiv情報
著者 | Oluwadamilola Fasina,Ruben V. C. Pohle,Pei-Chun Su,Ronald R. Coifman |
発行日 | 2025-06-18 15:14:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google