An Efficient Transformer Decoder with Compressed Sub-layers

要約

タイトル:圧縮されたサブレイヤーを持つ効率的なトランスフォーマー・デコーダー
要約:
– TransformerはAttentionを使ったエンコーダ・デコーダーネットワークであり、その効果的な性質により最近普及している。
– しかし、デコーダーの高いコンピューター計算量は効率性の問題を引き起こす
– デコーダーの数学的な定式に基づいて分析を行うことにより、いくつかの緩和条件の下で、建物ブロックであるTransformerのサブレイヤーを圧縮することができ、高い並列性を実現できることを示す。
– そのため、Compressed Attention Networkを提案し、デコーダーレイヤーが3つではなく1つのサブレイヤーから構成されている。
– 14つのWMT機械翻訳タスクでの多数の実験により、私たちのモデルは1.42倍速く、強力なベースラインと同等の性能を発揮します。
– この強力なベースラインは、すでに広く使用されている標準ベースラインよりも2倍速く、性能劣化なしに機能します。

要約(オリジナル)

The large attention-based encoder-decoder network (Transformer) has become prevailing recently due to its effectiveness. But the high computation complexity of its decoder raises the inefficiency issue. By examining the mathematic formulation of the decoder, we show that under some mild conditions, the architecture could be simplified by compressing its sub-layers, the basic building block of Transformer, and achieves a higher parallelism. We thereby propose Compressed Attention Network, whose decoder layer consists of only one sub-layer instead of three. Extensive experiments on 14 WMT machine translation tasks show that our model is 1.42x faster with performance on par with a strong baseline. This strong baseline is already 2x faster than the widely used standard baseline without loss in performance.

arxiv情報

著者 Yanyang Li,Ye Lin,Tong Xiao,Jingbo Zhu
発行日 2023-05-10 07:31:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク