Multi-Layer Transformers Gradient Can be Approximated in Almost Linear Time

要約

一般的なトランスフォーマー アーキテクチャのセルフ アテンション メカニズムにおける二次計算の複雑さは、特に効率とメモリ要件の点で、トレーニングと推論に重大な課題をもたらします。
これらの課題に対処するために、この論文では、多層変圧器モデルにおける勾配計算のための新しい高速計算方法を紹介します。
私たちのアプローチにより、多層変換器モデル全体の勾配をほぼ線形時間 $n^{1+o(1)}$ で計算できます。ここで、$n$ は入力シーケンスの長さです。
このブレークスルーにより、従来の二次時間の複雑さに伴う計算のボトルネックが大幅に軽減されます。
私たちの理論はあらゆる損失関数に当てはまり、モデル全体に​​わたって有界近似誤差を維持します。
さらに、多層変圧器モデルに残留接続、カジュアル マスク、マルチヘッド アテンションなどの実用的なサブモジュールが多数含まれている場合でも、私たちの分析は成り立ちます。
大規模な言語モデルにおける勾配計算の効率を向上させることで、私たちの研究により、理論的結果に基づいたロングコンテキスト言語モデルのより効果的なトレーニングと展開が促進されることを期待しています。

要約(オリジナル)

The quadratic computational complexity in the self-attention mechanism of popular transformer architectures poses significant challenges for training and inference, particularly in terms of efficiency and memory requirements. Towards addressing these challenges, this paper introduces a novel fast computation method for gradient calculation in multi-layer transformer models. Our approach enables the computation of gradients for the entire multi-layer transformer model in almost linear time $n^{1+o(1)}$, where $n$ is the input sequence length. This breakthrough significantly reduces the computational bottleneck associated with the traditional quadratic time complexity. Our theory holds for any loss function and maintains a bounded approximation error across the entire model. Furthermore, our analysis can hold when the multi-layer transformer model contains many practical sub-modules, such as residual connection, casual mask, and multi-head attention. By improving the efficiency of gradient computation in large language models, we hope that our work will facilitate the more effective training and deployment of long-context language models based on our theoretical results.

arxiv情報

著者 Yingyu Liang,Zhizhou Sha,Zhenmei Shi,Zhao Song,Yufa Zhou
発行日 2024-08-23 17:16:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク