The Parallelism Tradeoff: Limitations of Log-Precision Transformers

要約

タイトル:並列性のトレードオフ:Log-Precision Transformerの制限

要約:

– Transformerニューラルネットの計算能力を特徴づけることは興味深い未解決問題であるが、入力トークンの数に対して対数的な算術精度を持ち、フィードフォワードネットが入力の線形空間で計算可能なtransformersは、定数深度のログ空間均一閾値回路でシミュレートできることを証明した。
– これは、複雑性理論の既知の結果を用いてtransformersの能力についての洞察を提供している。例えば、もしL≠P(つまり、すべての多項式時間問題を対数空間で解決できない場合)、transformersは線形等式を正確に解くことも、任意の文脈自由文法の空生産行列のメンバーシップをチェックすることもできない。
– 結果は、transformerアーキテクチャの高い並列性から直感的に導かれる。したがって、私たちは推測により、基本的な並列性のトレードオフのアイデアを導入します:transformerと同じくらい並列化された任意のモデルアーキテクチャは、似たような制限を持つでしょう。
– 並列性は、大規模なモデルのトレーニングにおいて鍵となるため、これはスケーリングパラダイムの潜在的な固有の弱点を示唆しています。

要約(オリジナル)

Despite their omnipresence in modern NLP, characterizing the computational power of transformer neural nets remains an interesting open question. We prove that transformers whose arithmetic precision is logarithmic in the number of input tokens (and whose feedforward nets are computable using space linear in their input) can be simulated by constant-depth logspace-uniform threshold circuits. This provides insight on the power of transformers using known results in complexity theory. For example, if $\mathsf L \neq \mathsf P$ (i.e., not all poly-time problems can be solved using logarithmic space), then transformers cannot even accurately solve linear equalities or check membership in an arbitrary context-free grammar with empty productions. Our result intuitively emerges from the transformer architecture’s high parallelizability. We thus speculatively introduce the idea of a fundamental parallelism tradeoff: any model architecture as parallelizable as the transformer will obey limitations similar to it. Since parallelism is key to training models at massive scale, this suggests a potential inherent weakness of the scaling paradigm.

arxiv情報

著者 William Merrill,Ashish Sabharwal
発行日 2023-04-26 22:34:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CC, cs.CL パーマリンク