要約
我々は、表現力を高めるためにアテンションの重みを負にすることを可能にする、Cog Attendance という新しいアテンション メカニズムを提案します。これは 2 つの重要な要素から生じます。 (1) Cog Attendance は、トークンの削除とコピーの機能を静的な OV マトリックスから動的な QK にシフトできます。
内積、OV マトリックスは改良または修正に重点を置いています。
アテンション ヘッドは、トークンにそれぞれ負のアテンション、正のアテンション、または最小限のアテンションの重みを割り当てることで、トークンを同時に削除、コピー、または保持できます。
その結果、単一のアテンションヘッドがより柔軟で表現力豊かになります。
(2) コグ アテンションは、表現の崩壊に対するモデルの堅牢性を向上させます。表現の崩壊は、前のトークンが後の位置に過度に押しつぶされ、均質な表現につながる場合に発生する可能性があります。
負の重みを使用すると、前のトークンから後のトークンへの有効な情報パスが減少し、この問題の軽減に役立ちます。
私たちは、言語モデリング用のデコーダ専用モデルや画像生成用の U-ViT 拡散モデルなど、Cog Attendance をアテンション モジュールとして使用する Transformer のようなモデルを開発します。
実験によると、Cog Attendance を使用したモデルは、従来のソフトマックス アテンション モジュールを使用したモデルと比較して優れたパフォーマンスを発揮します。
私たちのアプローチは、非負の重みの要件など、従来のソフトマックスの注意に根付いた制約を再考し、打ち破るための有望な研究の方向性を示唆しています。
要約(オリジナル)
We propose a novel attention mechanism, named Cog Attention, that enables attention weights to be negative for enhanced expressiveness, which stems from two key factors: (1) Cog Attention can shift the token deletion and copying function from a static OV matrix to dynamic QK inner products, with the OV matrix now focusing more on refinement or modification. The attention head can simultaneously delete, copy, or retain tokens by assigning them negative, positive, or minimal attention weights, respectively. As a result, a single attention head becomes more flexible and expressive. (2) Cog Attention improves the model’s robustness against representational collapse, which can occur when earlier tokens are over-squashed into later positions, leading to homogeneous representations. Negative weights reduce effective information paths from earlier to later tokens, helping to mitigate this issue. We develop Transformer-like models which use Cog Attention as attention modules, including decoder-only models for language modeling and U-ViT diffusion models for image generation. Experiments show that models using Cog Attention exhibit superior performance compared to those employing traditional softmax attention modules. Our approach suggests a promising research direction for rethinking and breaking the entrenched constraints of traditional softmax attention, such as the requirement for non-negative weights.
arxiv情報
著者 | Ang Lv,Ruobing Xie,Shuaipeng Li,Jiayi Liao,Xingwu Sun,Zhanhui Kang,Rui Yan |
発行日 | 2024-11-11 17:56:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google