Transformers, parallel computation, and logarithmic depth

要約

一定数の自己注意層が、超並列計算の一定数の通信ラウンドを効率的にシミュレートできること、および一定数の通信ラウンドによってシミュレートされることを示します。
その結果、他のいくつかのニューラル シーケンス モデルや二次二次変換近似では効率的に解決できない基本的な計算タスクを変換器が解決するには、対数深度があれば十分であることがわかります。
したがって、変換器の重要な特徴的な特性として並列処理を確立します。

要約(オリジナル)

We show that a constant number of self-attention layers can efficiently simulate, and be simulated by, a constant number of communication rounds of Massively Parallel Computation. As a consequence, we show that logarithmic depth is sufficient for transformers to solve basic computational tasks that cannot be efficiently solved by several other neural sequence models and sub-quadratic transformer approximations. We thus establish parallelism as a key distinguishing property of transformers.

arxiv情報

著者 Clayton Sanford,Daniel Hsu,Matus Telgarsky
発行日 2024-02-14 15:54:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク