Unveiling and Controlling Anomalous Attention Distribution in Transformers

要約

Transformerアーキテクチャに基づく大規模なモデルの出現に伴い、研究者はアテンションメカニズムにおける異常な現象を観察してきた–Transformerベースのモデル全体に共通する、最初の要素に対する非常に高いアテンションである。この現象を理解することは、Key-Value(KV)キャッシュ圧縮や無限外挿のような、アテンション分布に着目した技術の開発にとって極めて重要であるが、潜在的な原因は不明のままである。本論文では、このような現象を、シーケンス中の特定の要素の内部値を減少させ、情報への貢献度に影響を与えることなく、過剰な注意を吸収させるウェイバー現象の観点から分析する。具体的なモデルにおいては、位置符号化と注意パターンの違いにより、モデルによる権利放棄要素の選択は、位置符号化ベースと要素内特徴分布ベースの2つの方法に分類できることがわかった。

要約(オリジナル)

With the advent of large models based on the Transformer architecture, researchers have observed an anomalous phenomenon in the Attention mechanism–there is a very high attention on the first element, which is prevalent across Transformer-based models. It is crucial to understand it for the development of techniques focusing on attention distribution, such as Key-Value (KV) Cache compression and infinite extrapolation; however, the latent cause leaves to be unknown. In this paper, we analyze such a phenomenon from the perspective of waiver phenomenon, which involves reducing the internal values of certain elements in the sequence, allowing them to absorb excess attention without affecting their contribution to information. In specific models, due to differences in positional encoding and attention patterns, we have found that the selection of waiver elements by the model can be categorized into two methods: positional-encoding-based and feature-distribution-within-elements-based.

arxiv情報

著者 Ruiqing Yan,Xingbo Du,Haoyu Deng,Linghan Zheng,Qiuzhuang Sun,Jifang Hu,Yuhang Shao,Penghao Jiang,Jinrong Jiang,Lian Zhao
発行日 2024-07-03 16:19:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG パーマリンク