要約
変圧器の理論的な制限を評価するための新しい方法を提案し、無限の精度で1層ソフトマックストランスに対する最初の下限を証明することができます。
高度な推論を必要とする3つのタスクのこれらの境界を確立します。
最初のタスクであるMatch3(Sanford et al。、2023)には、すべてのトリプルの位置を調べる必要があります。
2番目と3番目のタスクは、構成に基づく推論に対処します。1つは機能の構成(Peng et al。、2024)であり、もう1つはバイナリ関係の構成です。
一層ソフトマックストランスがこれらのタスクのいずれかを解決できないことを正式に証明しています。
これらの制限を克服するために、ストラッシングの注意を紹介し、このメカニズムにより、一層変圧器が原則としてこれらすべてのタスクを解決できることを証明します。
また、サブキュービックのランタイムタイムの複雑さを享受しており、高次の注意など、以前に提案された同様のメカニズムよりもスケーラブルであることを示しています(Sanford et al。、2023)。
私たちの理論的発見を補完するために、実験的にストラッシュな注意を研究し、それを標準(Vaswani et al、2017)、高次の注意(Sanford et al。、2023)、および三角的注意(Bergen etal。2021)と比較しました。
私たちの結果は、これらすべての注意メカニズムを解くのに役立ち、その強みと制限を強調しています。
特に、Strassen Atternessは、すべてのタスクで標準的な注意を大幅に上回ります。
完全に、理論的な制限を理解することで、トランスの推論能力を改善するスケーラブルな注意メカニズムに研究を導くことができます。
要約(オリジナル)
We propose a novel method to evaluate the theoretical limits of Transformers, allowing us to prove the first lower bounds against one-layer softmax Transformers with infinite precision. We establish those bounds for three tasks that require advanced reasoning. The first task, Match3 (Sanford et al., 2023), requires looking at all triples of positions. The second and third tasks address compositionality-based reasoning: one is composition of functions (Peng et al., 2024) and the other is composition of binary relations. We formally prove the inability of one-layer softmax Transformers to solve any of these tasks. In an attempt to overcome these limitations, we introduce Strassen attention and prove that with this mechanism a one-layer Transformer can in principle solve all these tasks. We also show that it enjoys sub-cubic running-time complexity, making it more scalable than similar previously proposed mechanisms, such as higher-order attention (Sanford et al., 2023). To complement our theoretical findings, we experimentally studied Strassen attention and compared it against standard (Vaswani et al, 2017), higher-order attention (Sanford et al., 2023) and triangular attention (Bergen et al. 2021). Our results help to disentangle all these attention mechanisms, highlighting their strengths and limitations. In particular, Strassen attention outperforms standard attention significantly on all the tasks. Altogether, understanding the theoretical limitations can guide research towards scalable attention mechanisms that improve the reasoning abilities of Transformers.
arxiv情報
著者 | Alexander Kozachinskiy,Felipe Urrutia,Hector Jimenez,Tomasz Steifer,Germán Pizarro,Matías Fuentes,Francisco Meza,Cristian Buc,Cristóbal Rojas |
発行日 | 2025-01-31 15:21:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google