Spectral Filters, Dark Signals, and Attention Sinks

要約

中間表現を語彙に投影することは、ロジット レンズとしても知られるトランスベースの LLM の解釈ツールとしてますます人気が高まっています。
我々は、このアプローチの定量的拡張を提案し、語彙埋め込み行列と非埋め込み行列の特異ベクトルをバンドに分割することに基づいて、中間表現のスペクトル フィルターを定義します。
私たちは、スペクトルの最後尾で交換される信号が注意力低下の原因であることを発見し(Xiao et al. 2023)、それについて説明します。
注意の集中が保たれている限り、層に依存した方法で埋め込みスペクトルのかなりの部分を抑制しても、事前学習済みモデルの損失を低く抑えることができることがわかりました。
最後に、多くのトークンから注目を集めるトークンの表現には、スペクトルの最後尾に大きな投影があることがわかります。

要約(オリジナル)

Projecting intermediate representations onto the vocabulary is an increasingly popular interpretation tool for transformer-based LLMs, also known as the logit lens. We propose a quantitative extension to this approach and define spectral filters on intermediate representations based on partitioning the singular vectors of the vocabulary embedding and unembedding matrices into bands. We find that the signals exchanged in the tail end of the spectrum are responsible for attention sinking (Xiao et al. 2023), of which we provide an explanation. We find that the loss of pretrained models can be kept low despite suppressing sizable parts of the embedding spectrum in a layer-dependent way, as long as attention sinking is preserved. Finally, we discover that the representation of tokens that draw attention from many tokens have large projections on the tail end of the spectrum.

arxiv情報

著者 Nicola Cancedda
発行日 2024-02-14 15:01:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク