要約
トランスは長さの一般化に苦しんでおり、基本的なタスクでもパフォーマンスが低下しています。
これらの制限が、自己触媒メカニズムの2つの重要な障害を通じて説明できるかどうかをテストします。
1つ目は、無関係な情報を完全に削除できないことです。
2番目は、キーとクエリの間のDOT積が非常に負の(つまり、無関係なキー)、学習された位置バイアスが意図せずに重みのあるそのような情報を無重力にする可能性がある場合でも、位置に結び付けられています – 距離が分布外になると危険です。
まとめて、これらの2つの障害ケースは、一般化の困難を調合することにつながります。
a)選択的スパース性の組み合わせによって軽減できるかどうかをテストします。これは、注意を払ったsoftmaxとb)コンテキスト化された相対距離から無関係なキーを完全に除去することです。
これらの2つの緩和が整備されているため、注意メカニズムをリファクタリングすることで、デコーダーのみの変圧器の一般化能力を大幅に改善することがどのように行われるかを示します。
要約(オリジナル)
Transformers struggle with length generalisation, displaying poor performance even on basic tasks. We test whether these limitations can be explained through two key failures of the self-attention mechanism. The first is the inability to fully remove irrelevant information. The second is tied to position, even if the dot product between a key and query is highly negative (i.e. an irrelevant key) learned positional biases may unintentionally up-weight such information – dangerous when distances become out of distribution. Put together, these two failure cases lead to compounding generalisation difficulties. We test whether they can be mitigated through the combination of a) selective sparsity – completely removing irrelevant keys from the attention softmax and b) contextualised relative distance – distance is only considered as between the query and the keys that matter. We show how refactoring the attention mechanism with these two mitigations in place can substantially improve generalisation capabilities of decoder only transformers.
arxiv情報
著者 | Mattia Opper,Roland Fernandez,Paul Smolensky,Jianfeng Gao |
発行日 | 2025-04-14 12:34:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google