要約
Transformer アーキテクチャの表現力を特徴付けることは、その容量制限とスケーリングの法則を理解するために重要です。
最近の研究では、回路の複雑さの限界をトランスのようなアーキテクチャに提供しています。
一方、ロータリー位置埋め込み ($\mathsf{RoPE}$) は、現代の大規模言語モデルにおける重要な技術として浮上しており、従来の位置埋め込みと比較して位置情報を取得する際に優れたパフォーマンスを提供し、アプリケーションの将来性において大きな可能性を示しています。
特に長いコンテキストのシナリオの場合。
経験的証拠はまた、$\mathsf{RoPE}$ ベースの Transformer アーキテクチャが従来の Transformer モデルと比較して優れた一般化機能を実証していることを示唆しています。
この研究では、$\mathsf{RoPE}$ に注目して、変圧器に制限されたより厳密な回路の複雑性を確立します。
私たちの主な貢献は、$\mathsf{TC}^0 = \mathsf{NC}^1$ でない限り、$\mathrm{poly}(n)$- を使用する $\mathsf{RoPE}$ ベースの変換器であることを示したことです。
精度、 $O(1)$ 層、隠れ次元 $d \leq O(n)$ では、算術問題やブール式の値の問題を解くことができません。
この結果は、$\mathsf{RoPE}$ ベースの Transformer アーキテクチャの表現力の根本的な限界を顕著に示していますが、経験的には大きな成功を収めています。
私たちの理論的フレームワークは、より厳密な複雑さの限界を確立するだけでなく、$\mathsf{RoPE}$ ベースの Transformer でのさらなる作業を指示することもできます。
要約(オリジナル)
Characterizing the express power of the Transformer architecture is critical to understanding its capacity limits and scaling law. Recent works provide the circuit complexity bounds to Transformer-like architecture. On the other hand, Rotary Position Embedding ($\mathsf{RoPE}$) has emerged as a crucial technique in modern large language models, offering superior performance in capturing positional information compared to traditional position embeddings, which shows great potential in application prospects, particularly for the long context scenario. Empirical evidence also suggests that $\mathsf{RoPE}$-based Transformer architectures demonstrate greater generalization capabilities compared to conventional Transformer models. In this work, we establish a tighter circuit complexity bound for Transformers with $\mathsf{RoPE}$ attention. Our key contribution is that we show that unless $\mathsf{TC}^0 = \mathsf{NC}^1$, a $\mathsf{RoPE}$-based Transformer with $\mathrm{poly}(n)$-precision, $O(1)$ layers, hidden dimension $d \leq O(n)$ cannot solve the arithmetic problem or the Boolean formula value problem. This result significantly demonstrates the fundamental limitation of the expressivity of the $\mathsf{RoPE}$-based Transformer architecture, although it achieves giant empirical success. Our theoretical framework not only establishes tighter complexity bounds but also may instruct further work on the $\mathsf{RoPE}$-based Transformer.
arxiv情報
著者 | Bo Chen,Xiaoyu Li,Yingyu Liang,Jiangxuan Long,Zhenmei Shi,Zhao Song |
発行日 | 2024-11-12 07:24:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google