要約
トランスフォーマーは、自己注意を用いて長距離の依存関係を捉えることができ、トークンが他のすべてに直接注意を向けることができる。しかし、複数の注意レイヤーを重ねることは注意の集中を招く。この問題に対処する1つの自然な方法は、レイヤーをまたいだ注意を使うことで、前のレイヤーからの情報に後のレイヤーが直接アクセスできるようにすることである。しかし、この方法は計算コストが高い。この問題に対処するために、我々は、最初の層の値から後続の全ての層への残差接続を追加することで、層間注意を近似する残差値付き変換器(ResFormer)を提案する。この方法に基づいて、すべての層が最初の層からの同じ値の埋め込みを共有する、単一層値による変換器(SVFormer)が1つの変形である。ResFormerは、Transformerと比較して、10.4%少ないモデルパラメータと13.6%少ない学習データで、同等の検証損失を達成する。さらに、SVFormerは、わずかな性能ペナルティでKVキャッシュサイズをほぼ半分に削減し、他のKV効率の良い手法と統合することで、シーケンスの長さと累積学習率によって性能が左右されるKVキャッシュをさらに削減することができる。さらに可視化の結果から、ResformerとSVFormerは、値状態の流出を回避することにより、より深い層への注意の集中を緩和し、ほとんどの層にわたって表現を強化することが示唆される。
要約(オリジナル)
Transformers can capture long-range dependencies using self-attention, allowing tokens to attend to all others directly. However, stacking multiple attention layers leads to attention concentration. One natural way to address this issue is to use cross-layer attention, allowing information from earlier layers to be directly accessible to later layers. However, this approach is computationally expensive. To address this problem, we propose Transformer with residual value (ResFormer) which approximates cross-layer attention through adding a residual connection from the values of the the first layer to all subsequent layers. Based on this method, one variant is the Transformer with single layer value (SVFormer), where all layers share the same value embedding from first layer. Comprehensive empirical evidence demonstrates ResFormer achieves equivalent validation loss with 10.4% fewer model parameters and 13.6% less training data compared to Transformer, while maintaining similar memory usage and computational cost. Besides, SVFormer reduces KV cache size by nearly half with only a small performance penalty and can be integrated with other KV-efficient methods, yielding further reductions in KV cache, with performance influenced by sequence length and cumulative learning rate. Further visualization results suggest that Resformer and SVFormer alleviate attention concentration in deeper layers through avoiding value-state drains and enhance representation across most layers.
arxiv情報
著者 | Zhanchao Zhou,Tianyi Wu,Zhiyun Jiang,Zhenzhong Lan |
発行日 | 2024-12-03 12:36:19+00:00 |
arxivサイト | arxiv_id(pdf) |