Simplifying Transformer Blocks

要約

ディープトランスフォーマーのシンプルな設計レシピは、同一のビルディングブロックを構成することである。しかし、標準的なトランスフォーマーのブロックは単純とは程遠く、注意とMLPのサブブロックを、スキップ接続と正規化レイヤーを用いて正確に配列している。この複雑さは、一見些細な変更で学習速度が大幅に低下したり、モデルが学習不能になったりする、もろいアーキテクチャにつながる。 この研究では、標準的な変換ブロックをどこまで単純化できるか?信号伝播理論と経験的観測を組み合わせることで、スキップ接続、投影または値パラメータ、逐次サブブロック、正規化層など、学習速度を損なうことなく多くのブロック構成要素を削除できるような修正を動機付ける。自己回帰デコーダオンリーとBERTエンコーダオンリーの両方のモデルの実験において、我々の簡略化されたトランスフォーマーは、標準的なトランスフォーマーの更新ごとのトレーニング速度と性能をエミュレートし、同時にトレーニングスループットを15%高速化し、使用するパラメータを15%削減した。

要約(オリジナル)

A simple design recipe for deep Transformers is to compose identical building blocks. But standard transformer blocks are far from simple, interweaving attention and MLP sub-blocks with skip connections & normalisation layers in precise arrangements. This complexity leads to brittle architectures, where seemingly minor changes can significantly reduce training speed, or render models untrainable. In this work, we ask to what extent the standard transformer block can be simplified? Combining signal propagation theory and empirical observations, we motivate modifications that allow many block components to be removed with no loss of training speed, including skip connections, projection or value parameters, sequential sub-blocks and normalisation layers. In experiments on both autoregressive decoder-only and BERT encoder-only models, our simplified transformers emulate the per-update training speed and performance of standard transformers, while enjoying 15% faster training throughput, and using 15% fewer parameters.

arxiv情報

著者 Bobby He,Thomas Hofmann
発行日 2023-11-03 13:30:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG パーマリンク