The Parallelism Tradeoff: Limitations of Log-Precision Transformers

要約

現代の NLP では遍在しているにもかかわらず、Transformer ニューラル ネットワークの計算能力を特徴づけることは、依然として興味深い未解決の問題です。
算術精度が入力トークンの数で対数である変換器 (およびフィードフォワード ネットが入力で空間線形を使用して計算可能である変換器) は、一定の深さの対数空間一様しきい値回路によってシミュレートできることを証明します。
これにより、複雑性理論の既知の結果を使用して、変圧器の能力に関する洞察が得られます。
たとえば、$\mathsf L \neq \mathsf P$ (つまり、すべてのポリタイム問題が対数空間を使用して解決できるわけではない) の場合、変換器は、線形等式を正確に解決したり、任意の文脈自由文法のメンバーシップを確認したりすることさえできません。
空のプロダクション。
私たちの結果は、Transformer アーキテクチャの高い並列化可能性から直感的にわかります。
したがって、基本的な並列処理のトレードオフのアイデアを推測的に導入します。トランスフォーマーと同じくらい並列化可能なモデル アーキテクチャは、それに類似した制限に従います。
並列処理はモデルを大規模にトレーニングするための鍵であるため、これはスケーリング パラダイムの潜在的な固有の弱点を示唆しています。

要約(オリジナル)

Despite their omnipresence in modern NLP, characterizing the computational power of transformer neural nets remains an interesting open question. We prove that transformers whose arithmetic precision is logarithmic in the number of input tokens (and whose feedforward nets are computable using space linear in their input) can be simulated by constant-depth logspace-uniform threshold circuits. This provides insight on the power of transformers using known results in complexity theory. For example, if $\mathsf L \neq \mathsf P$ (i.e., not all poly-time problems can be solved using logarithmic space), then transformers cannot even accurately solve linear equalities or check membership in an arbitrary context-free grammar with empty productions. Our result intuitively emerges from the transformer architecture’s high parallelizability. We thus speculatively introduce the idea of a fundamental parallelism tradeoff: any model architecture as parallelizable as the transformer will obey limitations similar to it. Since parallelism is key to training models at massive scale, this suggests a potential inherent weakness of the scaling paradigm.

arxiv情報

著者 William Merrill,Ashish Sabharwal
発行日 2023-03-07 23:07:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CC, cs.CL パーマリンク