An Efficient Transformer Decoder with Compressed Sub-layers

要約

タイトル:圧縮サブレイヤーを持つ効率的なトランスフォーマーデコーダー

要約:
・Transformerは、その効果的な性質から最近広く使用されているが、デコーダーの高い計算複雑度による非効率性の問題が生じている。
・デコーダーの数式の検討により、サブレイヤーを圧縮することでアーキテクチャを簡素化し、高い並列性を実現できることがわかった。
・そこで提案されたのが、Compressed Attention Networkであり、デコーダーレイヤーは3回の代わりに1つのサブレイヤーのみで構成される。
・14つのWMTマシン翻訳タスクで行われた広範な実験により、我々のモデルは、強力なベースラインと同等の性能を持ちつつ1.42倍の高速化を実現できた。
・この強力なベースラインは、既に広く使われている標準的なベースラインよりも2倍速い性能を持ち、性能に損失がない。

要約(オリジナル)

The large attention-based encoder-decoder network (Transformer) has become prevailing recently due to its effectiveness. But the high computation complexity of its decoder raises the inefficiency issue. By examining the mathematic formulation of the decoder, we show that under some mild conditions, the architecture could be simplified by compressing its sub-layers, the basic building block of Transformer, and achieves a higher parallelism. We thereby propose Compressed Attention Network, whose decoder layer consists of only one sub-layer instead of three. Extensive experiments on 14 WMT machine translation tasks show that our model is 1.42x faster with performance on par with a strong baseline. This strong baseline is already 2x faster than the widely used standard baseline without loss in performance.

arxiv情報

著者 Yanyang Li,Ye Lin,Tong Xiao,Jingbo Zhu
発行日 2023-05-11 08:30:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク