Value Residual Learning For Alleviating Attention Concentration In Transformers

要約

トランスフォーマーはセルフアテンションを使用して長距離の依存関係をキャプチャできるため、トークンが他のすべてのトークンに直接アテンションできるようになります。
ただし、複数の注意層を重ねると注意が集中します。
この問題に対処する自然な方法の 1 つは、クロスレイヤー アテンションを使用して、前のレイヤーからの情報を後のレイヤーが直接アクセスできるようにすることです。
ただし、このアプローチは計算コストが高くなります。
この問題に対処するために、最初の層の値から後続のすべての層に残差接続を追加することで層間の注意を近似する残差値付き Transformer (ResFormer) を提案します。
この方法に基づく 1 つのバリアントは、単一レイヤー値を持つ Transformer (SVFormer) です。これは、すべてのレイヤーが最初のレイヤーから埋め込まれた同じ値を共有し、$KV$ キャッシュをほぼ 50\% 削減します。
包括的な経験的証拠は、ResFormer がより深い層での注意集中の問題を軽減し、ほとんどの層にわたる表現を強化し、トレーニング エラーと下流タスクにおいてバニラの Transformer、DenseFormer、および NeuTRENO を上回るパフォーマンスを示していることを示しています。
さらに視覚化した結果は、Resformer が値状態の流出を回避することで注意力の低下を軽減することを示唆しています。
SVFormer は、バニラ Transformer よりも大幅に高速にトレーニングし、GQA や CLA などの他の方法よりも優れたパフォーマンスを発揮します。パフォーマンスはシーケンスの長さと累積学習率に影響されます。

要約(オリジナル)

Transformers can capture long-range dependencies using self-attention, allowing tokens to attend to all others directly. However, stacking multiple attention layers leads to attention concentration. One natural way to address this issue is to use cross-layer attention, allowing information from earlier layers to be directly accessible to later layers. However, this approach is computationally expensive. To address this problem, we propose Transformer with residual value (ResFormer) which approximates cross-layer attention through adding a residual connection from the values of the the first layer to all subsequent layers. Based on this method, one variant is the Transformer with single layer value (SVFormer), where all layers share the same value embedding from first layer, reducing the $KV$ cache by nearly 50\%. Comprehensive empirical evidence demonstrates that ResFormer mitigates attention concentration problem in deeper layers and enhances representation across most layers, outperforming the vanilla Transformer, DenseFormer, and NeuTRENO in training error as well as downstream tasks. Further visualization results suggest that Resformer alleviates attention sinks through avoiding value-state drains. SVFormer trains significantly faster than the vanilla Transformer and performs better than other methods like GQA and CLA, with performance influenced by sequence length and cumulative learning rate.

arxiv情報

著者 Zhanchao Zhou,Tianyi Wu,Zhiyun Jiang,Zhenzhong Lan
発行日 2024-11-14 17:46:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク