要約
Transformer アーキテクチャには、アテンションとフィード フォワード ネットワーク (FFN) という 2 つの主要な非埋め込みコンポーネントがあります。
アテンションは単語の位置に関係なく単語間の相互依存性を捕捉しますが、FFN は各入力トークンを個別に非線形に変換します。
この研究では、FFN の役割を調査し、モデルのパラメーターのかなりの部分を占めているにもかかわらず、非常に冗長であることがわかりました。
具体的には、デコーダ層の FFN を削除し、エンコーダ全体で 1 つの FFN を共有することで、精度はわずかに低下しますが、パラメータの数を大幅に減らすことができます。
最後に、共有 FFN の隠れ次元を増やすことでこのアーキテクチャを元のサイズに戻し、元の Transformer Big と比較して精度と遅延の両方で大幅な向上を達成しました。
要約(オリジナル)
The Transformer architecture has two main non-embedding components: Attention and the Feed Forward Network (FFN). Attention captures interdependencies between words regardless of their position, while the FFN non-linearly transforms each input token independently. In this work we explore the role of the FFN, and find that despite taking up a significant fraction of the model’s parameters, it is highly redundant. Concretely, we are able to substantially reduce the number of parameters with only a modest drop in accuracy by removing the FFN on the decoder layers and sharing a single FFN across the encoder. Finally we scale this architecture back to its original size by increasing the hidden dimension of the shared FFN, achieving substantial gains in both accuracy and latency with respect to the original Transformer Big.
arxiv情報
著者 | Telmo Pessoa Pires,António V. Lopes,Yannick Assogba,Hendra Setiawan |
発行日 | 2023-09-04 21:30:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google