Interpretation of the Transformer and Improvement of the Extractor

要約

Transformer アーキテクチャが提案されてから 6 年以上が経過しました。
驚くべきことに、バニラの Transformer アーキテクチャは現在でも広く使用されています。
理由の 1 つは、Transformer アーキテクチャに対する深い理解と包括的な解釈が不足しているため、Transformer アーキテクチャの改善がより困難になっていることです。
この論文では、まず Transformer アーキテクチャを私たちの理解と経験に基づいて平易な言葉で包括的に解釈します。
解釈はさらに証明され、検証されます。
これらの解釈は、Transformer アーキテクチャのマルチヘッドセルフアテンションのドロップイン代替品ファミリーである Extractor もカバーしています。
次に、追加の訓練可能なパラメーターを導入することなく、自己注意を上回るパフォーマンスを発揮するタイプの Extractor の改良を提案します。
実験結果は、改良された Extractor のパフォーマンスがさらに優れていることを示し、Transformer アーキテクチャを改善する方法を示しています。

要約(オリジナル)

It has been over six years since the Transformer architecture was put forward. Surprisingly, the vanilla Transformer architecture is still widely used today. One reason is that the lack of deep understanding and comprehensive interpretation of the Transformer architecture makes it more challenging to improve the Transformer architecture. In this paper, we first interpret the Transformer architecture comprehensively in plain words based on our understanding and experiences. The interpretations are further proved and verified. These interpretations also cover the Extractor, a family of drop-in replacements for the multi-head self-attention in the Transformer architecture. Then, we propose an improvement on a type of the Extractor that outperforms the self-attention, without introducing additional trainable parameters. Experimental results demonstrate that the improved Extractor performs even better, showing a way to improve the Transformer architecture.

arxiv情報

著者 Zhe Chen
発行日 2023-11-21 15:36:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク